您如何通过RDD操作计算两个过滤器?

时间:2020-10-08 01:08:35

标签: scala apache-spark rdd

我有两个RDD,一个看起来像这样:

increase
rose
die
bear
contracted
own
eyes
lights
making

然后我算第一个RDD:

(float,2)
(agree,20)
(healing,2)
(shot,45)
(guide,24)
(opening,11)
(urging,9)
(practises,1)
(surge,9)
(maintained,2)

我还有另一个RDD,它是不同形式的动词的字典,像这样

abash,abash,abashed,abashed,abashes,abashing
abate,abate,abated,abated,abates,abating
abide,abide,abode,abode,abides,abiding
absorb,absorb,absorbed,absorbed,absorbs,absorbing
accept,accept,accepted,accepted,accepts,accepting
accompany,accompany,accompanied,accompanied,accompanies,accompanying
ache,ache,ached,ached,aches,aching
achieve,achieve,achieved,achieved,achieves,achieving

现在,我需要计算第一个RDD中的单词,并根据第二个RDD合并属于同一单词但具有不同形式的单词。例如。 (工作100),(工作50),(工作150)->(工作300) 我尝试对第一个RDD进行计数,然后找出第一个RDD中的哪些元素属于第二个RDD中的哪个元素并进行计数,但是这部分不知道如何通过RDD操作来做到这一点

1 个答案:

答案 0 :(得分:1)

这是家庭作业还是其他东西。 here提出并回答了相同的问题(针对相同的任务)。