我有一个包含大量注释/句子的文本文件,我想以某种方式找到文档本身重复的最常见的短语。我尝试用NLTK稍微摆弄它,我找到了这个帖子:How to extract common / significant phrases from a series of text entries
然而,在尝试之后,我得到了如下奇怪的结果:
>>> finder.apply_freq_filter(3)
>>> finder.nbest(bigram_measures.pmi, 10)
[('m', 'e'), ('t', 's')]
在另一个文件中,“这很有趣”是非常常见的,我得到一个空列表[]。
我应该怎么做呢?
这是我的完整代码:
import nltk
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures()
trigram_measures = nltk.collocations.TrigramAssocMeasures()
# change this to read in your data
finder = BigramCollocationFinder.from_words('MkXVM6ad9nI.txt')
# only bigrams that appear 3+ times
finder.apply_freq_filter(3)
# return the 10 n-grams with the highest PMI
print finder.nbest(bigram_measures.pmi, 10)
答案 0 :(得分:4)
我没有使用nltk
,但我怀疑问题是from_words
接受字符串或标记(?)对象。
类似于
的东西with open('MkXVM6ad9nI.txt') as wordfile:
text = wordfile.read)
tokens = nltk.wordpunct_tokenize(text)
finder = BigramCollocationFinder.from_words(tokens)
可能会起作用,尽管可能还有专门的文件API。