WARN FPGrowth:不缓存输入数据

时间:2017-02-07 08:30:23

标签: python pyspark data-mining

我正在尝试使用pyspark获取关联规则。我有一组大约60000的交易。由于FPGrowth只能训练100 kb的问题,我有90这是好的。但是我收到此警告: WARN FPGrowth:未缓存输入数据。 pyspark.mllib.fpm.FPGrowthModel对象位于0x7f1e600dd250。我现在很困惑因为我以为我做了缓存。我该怎么解决呢?

def getAssociationRules(transactionsGroup):
    ar = []
    cnt = 0
    for key, value in transactionsGroup.items():       
      for k, v in value.items():
        cnt += 1
        if cnt >= 90:
           break
        else:
           ar.append(v)  
   transactions = sc.parallelize(ar).cache()
   b = FPGrowth.train(transactions, minSupport=0.3, numPartitions=10)
   print b

0 个答案:

没有答案