Python NLTK中用户定义的Bigram的条件频率分布

时间:2018-06-08 08:53:36

标签: python nltk

我想在我的明文语料库中根据定义的二元语(自然历史)的出现频率制作一个情节(即我有几百个文件)。 NLTK Book(第2章)中的例子仅适用于unigrams,因为它在条件中使用.startswith()方法来检查:

   from nltk.corpus import inaugural
   cfd = nltk.ConditionalFreqDist(
        (target, fileid[:4])
        for fileid in inaugural.fileids()
        for w in inaugural.words(fileid)
        for target in ['america', 'citizen']
        if w.lower().startswith(target))

如何修改此程序以使其与bigrams一起使用?提前谢谢!

1 个答案:

答案 0 :(得分:0)

您可以尝试根据以下代码构建解决方案。

promisify('one')

enter image description here