Spark fp的增长并未随之提供多个项目

时间:2018-08-02 09:00:47

标签: python-3.x apache-spark pyspark apache-spark-ml

我正在使用spark fp增长算法。我给了minsupport和信心作为o,所以所有组合我都应该得到

from pyspark.ml.fpm import FPGrowth

df = spark.createDataFrame([
    (0, [1, 2, 5]),
    (1, [1, 2, 3, 5]),
    (2, [1, 2])
], ["id", "items"])

fpGrowth = FPGrowth(itemsCol="items", minSupport=0.0, minConfidence=0.0)
model = fpGrowth.fit(df)

# Display generated association rules.
model.associationRules.show()

第一个问题是我的结果总是只包含一个元素

[1]-> [5,2]应该是样本输出频率1等于3,频率5,2等于2,频率[5,2,1] |是2,所以这应该放在规则中

1 个答案:

答案 0 :(得分:0)

spark 实现是这样的,它只会在结果中返回 1 个元素。 您可以在下面的链接中检查相同的内容。 https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/fpm/AssociationRules.scala

import * as React from 'react';
import { goToSecondPage } from './PageTransitionUtuil';

const IndexPage = () => {
  const handleClick = (e) => {
    console.log(e);
    goToSecondpage();
  };

  return (
     <button onClick={(e) => handleClick(e)} />
  )
}

这是来自 MLlib 包(ML 包使用 MLlib 实现)。

干杯,