我想在我的明文语料库中根据定义的二元语(自然历史)的出现频率制作一个情节(即我有几百个文件)。 NLTK Book(第2章)中的例子仅适用于unigrams,因为它在条件中使用.startswith()方法来检查:
from nltk.corpus import inaugural
cfd = nltk.ConditionalFreqDist(
(target, fileid[:4])
for fileid in inaugural.fileids()
for w in inaugural.words(fileid)
for target in ['america', 'citizen']
if w.lower().startswith(target))
如何修改此程序以使其与bigrams一起使用?提前谢谢!