Crunch SparkPipeline无法按预期工作

时间:2016-02-05 07:29:10

标签: hadoop apache-spark apache-crunch

我正在尝试将代码从Crunch MRPipeline迁移到SparkPipeline。我尝试了一个像这样的简单例子

SparkConf sc = new SparkConf().setAppName("Crunch Spark Count").setMaster("local");
JavaSparkContext jsc = new JavaSparkContext(sc);
SparkPipeline p = new SparkPipeline(jsc, "Crunch Spark Count");
PCollection<String> lines = p.read(From.textFile(new Path(fileUrl)));
PCollection<String> words = lines.parallelDo(new Tokenizer(), Writables.strings());
PTable<String, Long> counts = words.count();

我的输入文件就像 文件1: 你好,世界 你好hadoop 文件2: 你好火花

运行spark程序后,输出结果始终为

[hello, 1]
[hadoop, 1]
[world, 1]
[spark, 1]

实际上,你好的数量应该是3

那就是Crunch&#39; count&#39;功能错误?

0 个答案:

没有答案