我正在尝试使用文档ID附加我的单词列表,以便我知道单词的来源。这就是我在开始时所拥有的,但它将不同文件中的所有文本读入单个字符串。
JavaRDD<String> textFile = sc.textFiles("mydir/*");
JavaPairRDD<String, Integer> counts = textFile
.flatMap(s -> Arrays.asList(s.split(" ")).iterator())
.mapToPair(word -> new Tuple2<>(word, 1))
.reduceByKey((a, b) -> a + b);
我尝试使用它来获取密钥,看看我是否可以将密钥合并到值中,但密钥是使用路径而我不知道如何继续。
JavaPairRDD<String, String> textFile = sc.wholeTextFiles("mydir");
我实际上是想把这个输出键输入hi,你好,嘿是我的话,而“-n”告诉我哪个doc来自
(HI-1)
(你好-2)
(嘿-1)
但现在正在显示
(HI-MYDIR / myfilename1.txt)
(你好-MYDIR / myfilename2.txt)
(嘿-MYDIR / myfilename3.txt)