找到一组彼此最大距离的点的子集?

时间:2018-01-17 18:53:09

标签: algorithm sorting data-structures

我有一个csv文件,格式如下:

thing1_id, thing2_id, similarity

相似度介于50和100之间。我已经过滤掉了相似度小于50的所有对,但我确实有最低位于25左右的全套。目前有重复的比较,即thing1 -thing2是与thing2-thing1分开的条目。

我有兴趣编写一个程序,该程序将采用相似度阈值和每组最小项目数(n),并给我所有大小为n或更大的集合至少s%与该集合中的所有其他元素相似。

我认为图表可能是最好的数据结构吗?每个东西都是一个节点,相似性是加权边缘。我不太确定从哪里离开这里而不会占用太多记忆。这是一套约400件事。

0 个答案:

没有答案