Question

所以我有两个RDD＆＃39>

num_of_words = (doc_title,num) #number of words in a document
lines = (doc_title,word,num_of_occurrences) #number of occurrences of a specific word in a document

我想找到术语频率，即每个doc_title的num_of_occurrences / number_of_words。

Spark中是否有允许我这样做的操作？

Answer 1

我是Spark的新手，但这似乎是一项相当简单的任务。如果我遗漏了某些内容，请在评论中纠正我。

应用join转换，然后应用map以获得所需的RDD

frequency = lines.join(num_words).map(x => x[0]/x[1])

使用Spark中的两个RDD执行计算

1 个答案: