Question

我正在使用来自pyspark MLlib的FPGrowth，此函数的输出是类型collections.FreqItemset，我不是很熟悉，我发现很难使用，而且我找不到太多文档或示例。 这是我的问题，有没有办法在Python 3中使用这种格式？怎么用处理呢？这种格式来自哪里？ 因为我真的不太了解如何在Python 3上处理这个问题，所以我尝试将其转换为我更熟悉的东西，例如pandas dataframe。不过我认为这是一种肮脏的。所以我把时间解决方案留在这里，等待你们的一些见解。

在文档中使用FPGRowth作为python的几乎所有示例，here。

在pyspark中设置环境

import pyspark
sc = pyspark.SparkContext('local[*]')

要在示例中运行该函数并查看结果：

from pyspark.mllib.fpm import FPGrowth

data = sc.textFile("sample_fpgrowth.txt")
transactions = data.map(lambda line: line.strip().split(' '))
model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10)
result = model.freqItemsets().collect()
for fi in result:
    print(fi)

如果找不到该示例的文件，则可以获取该文件here。输出类似于

这是这个人：类型collections.FreqItemse我不知道如何在Python中正确处理。

因此，我目前使用的将其转换为pandas数据帧的脏方法是：

import pandas as pd
df = pd.DataFrame(columns = [0]) 
for fi in result:
    df.loc[''.join(str(e)+' ' for e in fi.items)[0:-1]] = int(fi.freq)
df.head()

将输出什么：

提前感谢您的帮助。

Answer 1

您快到了。而不是使用

for fi in result:
    print(fi)

使用此

for fi in result:
    print (''.join(fi['items']),fi['freq'])

或这个

for items,frequency in result:
    print (''.join(items),frequency)

这里的项目是一个简单的python列表，频率应该是整数。它的打印效果可能不如熊猫数据框漂亮，但我想您要获取对值的访问权限。

如何使用PySpark处理FPGrowth中的collections.FreqItemset？

1 个答案: