我是Python新手,有一项任务给我带来很多麻烦。我有一个小文件(3行),我用
阅读lines = sc.textFile("Dome/test.txt")
下一行将文本拆分为数组元素:
terms = lines.map(lambda line: line.split(" "))
然后我计算每个文档中单词的频率('':'':1'':1'':1&#39基于':1,)我对此很满意。使用下面的行
frequency = terms.map(lambda term: Counter(term))
我现在需要的是如何计算文件频率?我希望有一个输出像' - :30,基于:40等,然后计算TFIDF。 任何建议将不胜感激。