我有两个文件 A 和 B ,其内容如下:
A
brown i like
big is house
jumps over lazy
乙
this is my house
my house is brown
brown is color
我想分别计算每个文件中每个单词的出现次数,然后对结果求和,以便获得两个文件中所有单词的计数,即如果两个文件中都出现一个单词,那么它的最终计数将是两个文件中的一些总数都是谦虚的。
以下是我到目前为止编写的代码:
val readme = sc.textFile("A.txt")
val readmesplit = readme.flatMap(line => line.split(" "))
val changes = sc.textFile("B.txt")
val changessplit = changes.flatMap(line => line.split(" "))
val readmeKV = readmesplit.map(x => (x, 1)).reduceByKey((x, y) => x + y)
val changesKV = changessplit.map(x => (x,1)).reduceByKey((x, y) => x + y)
val ans = readmeKV.fullOuterJoin(changesKV).collect()
此代码给出了以下输出:
(this,(Some(1),None)), (is,(Some(3),Some(1))), (big,(None,Some(1))),
(lazy,(None,Some(1))), (house,(Some(2),Some(1))), (over,(None,Some(1)))...and so on
现在我如何对每个键的值元组求和,以获得两个文件中每个单词的出现。
答案 0 :(得分:2)
您是否尝试过使用union
代替fullOuterJoin
? :
val ans = readmesplit.union(changessplit).map(x => (x,1)).reduceByKey((x, y) => x + y)
答案 1 :(得分:1)
val totals = ans.map {
case (word, (one, two)) => (word, one.getOrElse(0) + two.getOrElse(0))
}
只需提取两个值,如果单词“不存在”,则返回0,然后添加结果。