Question

我有一个类似以下的数据集

1=> aa,ser,sdf,gg,er,we <br/>
2=> gg,aa,uy,de,or,qq<br/>
3=> aa,er,we,uy<br/>
4=> oo,aa,gg,tr,dw<br/>
5=> iu,gg,re,de,ser<br/>

同样有大约1000笔交易我想用

来更好地找到哪些物品

“aa”，“aa”和“gg”，“oo”

等...
每当我命名一个项目时，应该显示其他常用的项目。什么类型的算法/算法适合在这种情况下使用？

Answer 1

将它全部拆分成一个大的两列表：

num,wrd
===,===
1,aa
1,er
1,gg
1,sdf
1,ser
1,we
2,aa
2,dd
...
5,re
5,ser

从那里，您可以更轻松地查询出您想要的内容。例如，

select wrd, count(*) from words group by wrd order by count(*) desc;

Answer 2

关联规则学习可以是一个简单而快速的选择。

根据您希望如何调整解决方案，有很多选项。请查看有关该主题的survey。