如何在groupBy之后将FP-Growth应用于数据集?

时间:2017-05-12 07:42:28

标签: apache-spark pyspark apache-spark-mllib apache-spark-2.0

我想在Spark 2.1中使用Spark MLlib的FP-Growth。

我的数据只有两列item_groupitem

dataset

我尝试过以下操作但不起作用:

sc = SparkSession.builder.appName("Assoziationsanalyse").getOrCreate()
hiveCtx = SQLContext(sc)

input = hiveCtx.sql("""select  * from bosch.input_view""").
  groupBy("item_group").
  agg(collect_list("item")).
  alias("items").
  rdd.
  map(lambda x : x.items)

model = FPGrowth.train(input, minSupport=0.2, numPartitions=10)

0 个答案:

没有答案