记录频率计数并计算TFIDF

时间:2016-02-12 11:18:37

标签: python

我是Python新手,有一项任务给我带来很多麻烦。我有一个小文件(3行),我用

阅读
lines = sc.textFile("Dome/test.txt") 

下一行将文本拆分为数组元素:

terms = lines.map(lambda line: line.split(" "))

然后我计算每个文档中单词的频率('':'':1'':1'':1&#39基于':1,)我对此很满意。使用下面的行

frequency = terms.map(lambda term: Counter(term))

我现在需要的是如何计算文件频率?我希望有一个输出像' - :30,基于:40等,然后计算TFIDF。 任何建议将不胜感激。

0 个答案:

没有答案