我正在尝试使用pyspark获取关联规则。我有一组大约60000的交易。由于FPGrowth只能训练100 kb的问题,我有90这是好的。但是我收到此警告: WARN FPGrowth:未缓存输入数据。 pyspark.mllib.fpm.FPGrowthModel对象位于0x7f1e600dd250。我现在很困惑因为我以为我做了缓存。我该怎么解决呢?
def getAssociationRules(transactionsGroup):
ar = []
cnt = 0
for key, value in transactionsGroup.items():
for k, v in value.items():
cnt += 1
if cnt >= 90:
break
else:
ar.append(v)
transactions = sc.parallelize(ar).cache()
b = FPGrowth.train(transactions, minSupport=0.3, numPartitions=10)
print b