用于数据质量的Apriori或Fpgrowth算法

时间:2019-06-03 19:15:10

标签: apriori

我有一个90列和500,000条记录的数据集。数据集包含数字和分类属性的混合(70个分类和20个数字)。如何使用python在此数据集上运行频繁的数据挖掘算法,如apriori / FPgrowth / Eclat。我试图在数据质量的不同列和值之间找到模式。我们可以按原样使用数据集吗?

如何将与输入相同的数据放入apriori?

我尝试用列名替换非空列值,然后通过删除空值将其转换为列表列表。这种方法正确吗?然后使用apriori和fpgrowth。

association_rules = apriori(transactions,min_support=0.6, min_confidence=0.8, min_lift=3, min_length=2)  
association_results = list(association_rules) 
print(association_results) 

代码列表的第二行(association_rules)花费了无限的时间。有什么更好的方法可以解决该算法。

我还使用pyfpgrowth.find_frequent_patterns在python中尝试了fpgrowth包,但这很奇怪,它花费的时间比先验时间长。

请建议我这种数据转换方法是否适用于先验。如何将原始数据集传递给此算法?考虑到其庞大的数据集,如何减少延迟。

0 个答案:

没有答案