我有一个90列和500,000条记录的数据集。数据集包含数字和分类属性的混合(70个分类和20个数字)。如何使用python在此数据集上运行频繁的数据挖掘算法,如apriori / FPgrowth / Eclat。我试图在数据质量的不同列和值之间找到模式。我们可以按原样使用数据集吗?
如何将与输入相同的数据放入apriori?
我尝试用列名替换非空列值,然后通过删除空值将其转换为列表列表。这种方法正确吗?然后使用apriori和fpgrowth。
association_rules = apriori(transactions,min_support=0.6, min_confidence=0.8, min_lift=3, min_length=2)
association_results = list(association_rules)
print(association_results)
代码列表的第二行(association_rules)花费了无限的时间。有什么更好的方法可以解决该算法。
我还使用pyfpgrowth.find_frequent_patterns在python中尝试了fpgrowth包,但这很奇怪,它花费的时间比先验时间长。
请建议我这种数据转换方法是否适用于先验。如何将原始数据集传递给此算法?考虑到其庞大的数据集,如何减少延迟。