我被要求计算每1000个单词的纯文本文件gutenberg.txt的令牌类型比率。然后我被要求计算整个文件的平均令牌类型比率。我该怎么做呢?
到目前为止,这是我的代码:
with open ("gutenberg.txt") as f:
lines = f.readlines()
for line in lines:
words = line.split()
for word in words:
print (word)
从这里我需要将文件拆分为1000个字长的字符串。然后我需要对每个1000字的字符串执行ttr()。这是我已经清理过的文件的html版本的链接,并在我的代码中创建了纯文本:https://www.gutenberg.org/files/1155/1155-h/1155-h.htm
一旦我得到1000个单词的每个块的每个ttr值,我被要求平均它们来计算整个文件的平均ttr。