Apache Spark中是否有任何算法可以找出文本文件中的频繁模式。我尝试了以下示例,但总是最终出现此错误:
org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:file: /D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt
有人可以帮我解决这个问题吗?
import org.apache.spark.mllib.fpm.FPGrowth
val transactions = sc.textFile("...").map(_.split(" ")).cache()
val model = new FPGrowth()
model.setMinSupport(0.5)
model.setNumPartitions(10)
model.run(transactions)
model.freqItemsets.collect().foreach {
itemset => println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)
}
答案 0 :(得分:0)
试试这个
file://D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt
或
D:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample_fpgrowth.txt
如果不起作用,请将/
替换为//
答案 1 :(得分:0)
我假设你在Windows上运行火花。
使用
之类的文件路径{{1}}
注意:如有必要,请退出“\”。