Question

我如何在Pyspark中误用/误解FPGrowth算法的使用，我希望得到相同的Apriori算法输出。提供了我的FPGrowth代码，Apriori输出和FPGrowth输出。

from pyspark.mllib.fpm import FPGrowth
from pyspark import SparkConf
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))
data = sc.textFile("C:\\Users\\marka\\Downloads\\Assig2.txt")
data.map(lambda line: line.strip().split())
transactions = data.map(lambda line: line.strip().split('\t'))
#notempty = transactions.map(lambda x: x is not '')
unique = transactions.map(lambda x: list(set(x))).cache()
model = FPGrowth.train(unique, minSupport=0.7, numPartitions=10)
result = model.freqItemsets().collect()
for fi in result:
    print(fi)

Apriori输出：

FPGrowth输出：

我会误解结果吗？或者还有另一种方法来输出FPGrowth来像Apriori一样解释结果吗？

为了进行测试，我使用Weka进行FPGrowth并得到与Apriori类似的结果，所以表明我的Pyspark输出方法不正确，但是文档始终是针对fi的：print（fi），所以我不确定如何。

Weka FPGrowth输出：

如何从Pyspark中的FPGrowth算法获取前因/结果？

0 个答案: