我有一个类似以下的数据集
1=> aa,ser,sdf,gg,er,we <br/>
2=> gg,aa,uy,de,or,qq<br/>
3=> aa,er,we,uy<br/>
4=> oo,aa,gg,tr,dw<br/>
5=> iu,gg,re,de,ser<br/>
同样有大约1000笔交易 我想用
来更好地找到哪些物品“aa”,“aa”和“gg”,“oo”
等...
每当我命名一个项目时,应该显示其他常用的项目。什么类型的算法/算法适合在这种情况下使用?
答案 0 :(得分:0)
将它全部拆分成一个大的两列表:
num,wrd
===,===
1,aa
1,er
1,gg
1,sdf
1,ser
1,we
2,aa
2,dd
...
5,re
5,ser
从那里,您可以更轻松地查询出您想要的内容。例如,
select wrd, count(*) from words group by wrd order by count(*) desc;
答案 1 :(得分:0)
关联规则学习可以是一个简单而快速的选择。
根据您希望如何调整解决方案,有很多选项。请查看有关该主题的survey。