使用Spark中的两个RDD执行计算

时间:2016-03-29 16:20:55

标签: apache-spark pyspark

所以我有两个RDD&#39>

num_of_words = (doc_title,num) #number of words in a document
lines = (doc_title,word,num_of_occurrences) #number of occurrences of a specific word in a document

我想找到术语频率,即每个doc_title的num_of_occurrences / number_of_words。

Spark中是否有允许我这样做的操作?

1 个答案:

答案 0 :(得分:0)

我是Spark的新手,但这似乎是一项相当简单的任务。如果我遗漏了某些内容,请在评论中纠正我。

应用join转换,然后应用map以获得所需的RDD

frequency = lines.join(num_words).map(x => x[0]/x[1])