我如何在Pyspark中误用/误解FPGrowth算法的使用,我希望得到相同的Apriori算法输出。提供了我的FPGrowth代码,Apriori输出和FPGrowth输出。
from pyspark.mllib.fpm import FPGrowth
from pyspark import SparkConf
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))
data = sc.textFile("C:\\Users\\marka\\Downloads\\Assig2.txt")
data.map(lambda line: line.strip().split())
transactions = data.map(lambda line: line.strip().split('\t'))
#notempty = transactions.map(lambda x: x is not '')
unique = transactions.map(lambda x: list(set(x))).cache()
model = FPGrowth.train(unique, minSupport=0.7, numPartitions=10)
result = model.freqItemsets().collect()
for fi in result:
print(fi)
FPGrowth输出:
我会误解结果吗?或者还有另一种方法来输出FPGrowth来像Apriori一样解释结果吗?
为了进行测试,我使用Weka进行FPGrowth并得到与Apriori类似的结果,所以表明我的Pyspark输出方法不正确,但是文档始终是针对fi的:print(fi),所以我不确定如何。