数の集合同士で最も被っているデータの集合を知りたい
数の集合同士で最も被っているデータの集合を知りたいです。
上手く言葉で説明できないので例を挙げて説明させていただきます。
例えば、会社のイベントの参加者の比較をし、一番参加者が被っている会社を知りたいとします。
A社の主催者のA1,A2,A3...(平均100個)のイベントがあったとして、これと同じような形式のイベントがB,C...社(1000社以上)にもあります。
そして一つのイベント毎に平均1000人ぐらいの参加者がいます。そして参加者はすべてのイベントに参加可能です。
また参加者毎の一意な識別番号は入手出来ています。
この時にA社のイベントに参加している参加者層と最も被っている別の会社が何処かを求めたいです。
また可能なら同じ会社のイベントに複数参加した者には、その会社の常連として考えて何かしらの重みを持たせたいです。ただ具体的な方法はイメージ出来ていません。
言語はRubyで書いており、データはSqliteで管理しています。
この様な場合、どの様なアルゴリズム、ないしはツールを使って求めればいいのでしょうか?
抽象的な質問で申し訳ないのですが、ご回答いただけると助かります。