我希望我的代码能够将文本文件拆分为单字符和双字符n-gram。例如,如果出现“ dogs”一词,我会想要“ do”,“ og”和“ gs”。问题是我似乎只能将文本分成整个单词。
我试图只使用一个简单的split(),但是对于重叠的n-gram似乎不起作用。
from collections import Counter
from nltk.util import ngrams
def ngram_dist(fname, n):
with open(fname, 'r') as fp:
for lines in fp:
for words in lines:
result = Counter(ngrams(fname.split(),n))
return result
答案 0 :(得分:0)
这是一个解决方案。它会将空格视为字符,但是您可以根据需要将其删除。
<ifModule mod_headers.c>
Header set Access-Control-Allow-Origin: "*"
</ifModule>