我正在寻找一种算法,但错过了正确的关键字才能获得覆盖。我试图实现的是一个函数,它在元组的数据集中找到相关/模式/ ...(简化)。例如:
dataset=(('a','b','c'),('1','a'), ('x','y','b','c'))
print magic(1.0, dataset)
-> ('b','c')
如您所见,该函数应返回元素对,它们总是一起出现(1.0 = 100%)或具有特定的可用性。
有人可以告诉我哪个算法组适合我的问题吗?也许指向一个完成工作并经过测试的lib? :)
答案 0 :(得分:0)
查看频繁项集挖掘(FIM)和关联规则挖掘。
在您的问题中,您基本上对A -> B
类型的关联规则感兴趣,信心100%。
特别是APRIORI algorithm,如果您对大于3的同谋感兴趣。
请注意,如果您只想要成对,APRIORI可以归结为扫描您的数据库两次以计算所有对;修剪你没有得到任何东西。根据数据的稀疏性,相交的反向列表可以快得多。