所以我有两个RDD&#39>
num_of_words = (doc_title,num) #number of words in a document
lines = (doc_title,word,num_of_occurrences) #number of occurrences of a specific word in a document
我想找到术语频率,即每个doc_title的num_of_occurrences / number_of_words。
Spark中是否有允许我这样做的操作?
答案 0 :(得分:0)
我是Spark的新手,但这似乎是一项相当简单的任务。如果我遗漏了某些内容,请在评论中纠正我。
应用join
转换,然后应用map
以获得所需的RDD
frequency = lines.join(num_words).map(x => x[0]/x[1])