如何使用“ BigramCollocationFinder”查找“ Bigrams”?

时间:2019-04-24 15:12:35

标签: python-3.x nltk cookbook

我正在研究使用python的编译器构造,我试图创建文本中所有小写单词的列表,然后生成BigramCollocationFinder,我们可以使用它来查找成对的单词。

使用nltk.metrics包中的关联度量功能可以找到这些二元组。

我正在使用“使用NLTK 3食谱进行Python 3文本处理” 进行练习,并且找到了以下示例代码:

from nltk.corpus import webtext
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures
words = [w.lower() for w in webtext.words('grail.txt')]
bcf = BigramCollocationFinder.from_words(words)
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

我被困在:

bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)
likelihood_ratio, 4

在这里是指相似率或在此代码中是什么意思。

在此问题上的任何指导都将受到高度赞赏。

1 个答案:

答案 0 :(得分:1)

我相信NLTK collocations for specific words应该回答您的问题。它首先计算PMI并返回在您的语料库中经常出现的前4个单词。