Question

我想在我的明文语料库中根据定义的二元语（自然历史）的出现频率制作一个情节（即我有几百个文件）。 NLTK Book（第2章）中的例子仅适用于unigrams，因为它在条件中使用.startswith（）方法来检查：

   from nltk.corpus import inaugural
   cfd = nltk.ConditionalFreqDist(
        (target, fileid[:4])
        for fileid in inaugural.fileids()
        for w in inaugural.words(fileid)
        for target in ['america', 'citizen']
        if w.lower().startswith(target))

如何修改此程序以使其与bigrams一起使用？提前谢谢！

Answer 1

您可以尝试根据以下代码构建解决方案。

promisify('one')

Python NLTK中用户定义的Bigram的条件频率分布

1 个答案: