Question

Apache Spark中是否有任何算法可以找出文本文件中的频繁模式。我尝试了以下示例，但总是最终出现此错误：

org.apache.hadoop.mapred.InvalidInputException：输入路径不存在：file： /D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt

有人可以帮我解决这个问题吗？

import org.apache.spark.mllib.fpm.FPGrowth

val transactions = sc.textFile("...").map(_.split(" ")).cache()

val model = new FPGrowth()

model.setMinSupport(0.5)

model.setNumPartitions(10)

model.run(transactions)

model.freqItemsets.collect().foreach { 
    itemset => println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)
}

Answer 1

试试这个

file://D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt

或

D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt

如果不起作用，请将/替换为//

Answer 2

我假设你在Windows上运行火花。

使用

之类的文件路径

{{1}}

注意：如有必要，请退出“\”。

Apache Spark中的错误称为输入路径不存在

2 个答案: