Question

我希望我的代码能够将文本文件拆分为单字符和双字符n-gram。例如，如果出现“ dogs”一词，我会想要“ do”，“ og”和“ gs”。问题是我似乎只能将文本分成整个单词。

我试图只使用一个简单的split（），但是对于重叠的n-gram似乎不起作用。

from collections import Counter 
from nltk.util import ngrams

def ngram_dist(fname, n):
    with open(fname, 'r') as fp:
        for lines in fp:
            for words in lines:
                    result = Counter(ngrams(fname.split(),n))
    return result

Answer 1

这是一个解决方案。它会将空格视为字符，但是您可以根据需要将其删除。

<ifModule mod_headers.c>
  Header set Access-Control-Allow-Origin: "*"
</ifModule>

从文本文件创建单字符和双字符n-gram

1 个答案: