我有pyspark版本1.6.2,并且试图在pyspark中使用FPM模块来查找事务中的关联规则。我已经从网上找到了常见项目集的代码:
from pyspark.mllib.fpm import FPGrowth
data = sc.textFile("data/mllib/sample_fpgrowth.txt")
transactions = data.map(lambda line: line.strip().split(' '))
model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10)
result = model.freqItemsets().collect()
for fi in result:
print(fi)
但是,我找不到有关如何使用pyspark查找这些常见项目集的提升度和置信度的参考或代码。我可以看到执行此操作的scala代码,但Pyspark中似乎没有可用的代码。
我还看到pyspark 2.2中还有另一个包pyspark.ml.fpm,它可以完成所有过程,即查找频繁的物品集,提货量,置信度等。但是我不能使用2.2
关于如何在pyspark 1.6中实现此目标的任何指针吗?