从文本文件创建单字符和双字符n-gram

时间:2019-04-17 22:45:36

标签: python

我希望我的代码能够将文本文件拆分为单字符和双字符n-gram。例如,如果出现“ dogs”一词,我会想要“ do”,“ og”和“ gs”。问题是我似乎只能将文本分成整个单词。

我试图只使用一个简单的split(),但是对于重叠的n-gram似乎不起作用。

from collections import Counter 
from nltk.util import ngrams

def ngram_dist(fname, n):
    with open(fname, 'r') as fp:
        for lines in fp:
            for words in lines:
                    result = Counter(ngrams(fname.split(),n))
    return result

1 个答案:

答案 0 :(得分:0)

这是一个解决方案。它会将空格视为字符,但是您可以根据需要将其删除。

<ifModule mod_headers.c>
  Header set Access-Control-Allow-Origin: "*"
</ifModule>