我正在使用来自pyspark MLlib的FPGrowth,此函数的输出是类型collections.FreqItemset
,我不是很熟悉,我发现很难使用,而且我找不到太多文档或示例。 这是我的问题,有没有办法在Python 3中使用这种格式?怎么用处理呢?这种格式来自哪里?
因为我真的不太了解如何在Python 3上处理这个问题,所以我尝试将其转换为我更熟悉的东西,例如pandas dataframe。不过我认为这是一种肮脏的。所以我把时间解决方案留在这里,等待你们的一些见解。
在文档中使用FPGRowth作为python的几乎所有示例,here。
在pyspark中设置环境
import pyspark
sc = pyspark.SparkContext('local[*]')
要在示例中运行该函数并查看结果:
from pyspark.mllib.fpm import FPGrowth
data = sc.textFile("sample_fpgrowth.txt")
transactions = data.map(lambda line: line.strip().split(' '))
model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10)
result = model.freqItemsets().collect()
for fi in result:
print(fi)
如果找不到该示例的文件,则可以获取该文件here。
输出类似于
这是这个人:类型collections.FreqItemse
我不知道如何在Python中正确处理。
因此,我目前使用的将其转换为pandas数据帧的脏方法是:
import pandas as pd
df = pd.DataFrame(columns = [0])
for fi in result:
df.loc[''.join(str(e)+' ' for e in fi.items)[0:-1]] = int(fi.freq)
df.head()
将输出什么:
提前感谢您的帮助。
答案 0 :(得分:0)
您快到了。 而不是使用
for fi in result:
print(fi)
使用此
for fi in result:
print (''.join(fi['items']),fi['freq'])
或这个
for items,frequency in result:
print (''.join(items),frequency)
这里的项目是一个简单的python列表,频率应该是整数。它的打印效果可能不如熊猫数据框漂亮,但我想您要获取对值的访问权限。