Question

我正在研究使用python的编译器构造，我试图创建文本中所有小写单词的列表，然后生成BigramCollocationFinder，我们可以使用它来查找成对的单词。

使用nltk.metrics包中的关联度量功能可以找到这些二元组。

我正在使用“使用NLTK 3食谱进行Python 3文本处理” 进行练习，并且找到了以下示例代码：

from nltk.corpus import webtext
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures
words = [w.lower() for w in webtext.words('grail.txt')]
bcf = BigramCollocationFinder.from_words(words)
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

我被困在：

bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)
likelihood_ratio, 4

在这里是指相似率或在此代码中是什么意思。

在此问题上的任何指导都将受到高度赞赏。

Answer 1

我相信NLTK collocations for specific words应该回答您的问题。它首先计算PMI并返回在您的语料库中经常出现的前4个单词。

如何使用“ BigramCollocationFinder”查找“ Bigrams”？

1 个答案: