在Spark中,我们可以为JavaRDD <string>输入分配索引吗?

时间:2018-01-29 08:33:37

标签: java apache-spark

我正在尝试使用文档ID附加我的单词列表,以便我知道单词的来源。这就是我在开始时所拥有的,但它将不同文件中的所有文本读入单个字符串。

JavaRDD<String> textFile = sc.textFiles("mydir/*");
JavaPairRDD<String, Integer> counts = textFile
.flatMap(s -> Arrays.asList(s.split(" ")).iterator())
.mapToPair(word -> new Tuple2<>(word, 1))
.reduceByKey((a, b) -> a + b);

我尝试使用它来获取密钥,看看我是否可以将密钥合并到值中,但密钥是使用路径而我不知道如何继续。

JavaPairRDD<String, String> textFile = sc.wholeTextFiles("mydir");

我实际上是想把这个输出键输入hi,你好,嘿是我的话,而“-n”告诉我哪个doc来自

(HI-1)
(你好-2)
(嘿-1)

但现在正在显示

(HI-MYDIR / myfilename1.txt)
(你好-MYDIR / myfilename2.txt)
(嘿-MYDIR / myfilename3.txt)

0 个答案:

没有答案