关联规则与pandas数据帧

时间:2015-11-11 14:32:50

标签: python pandas machine-learning orange

我有一个像这样的数据框

df = pd.DataFrame(data=[980,169,104,74], columns=['Count'], index=['X,Y,Z', 'X,Z','X','Y,Z'])

           Count
X, Y, Z      980
X,Z          169
X            104
Y,Z           74

我希望能够从中提取关联规则。我已经看到 Apriori算法是参考。并且还发现用于数据挖掘的 Orange库在该领域是众所周知的。

但问题是,为了使用AssociationRulesInducer我需要首先创建一个包含所有事务的文件。由于我的数据集非常庞大(20列和500万行),因此将所有这些数据写入文件并使用Orange再次读取将会非常昂贵。

您是否知道如何利用我当前的数据帧结构来查找关联规则?

1 个答案:

答案 0 :(得分:2)

Orange3-Associate的新Orange data mining suite加载项似乎包括小部件和code that mines frequent itemsets(以及来自association rules),甚至包括稀疏数组或列表列表,为你工作。

如果有5M行,那就非常棒了。 :)