标签: python nltk
我使用nltk FreqDist使用python3创建频率分布。我想逐个比较整个语料库的频率分布和许多文本文件的频率分布。另外,我想输出比较的一些数值。
corpusTokens = []
for documents_set中的文档:
corpusTokens.extend(document) fdist = FreqDist(self.corpusTokens)
如何将整个语料库的fdist与某些文本文件的fdist进行比较?