令牌类型比率每1000个字

时间:2017-12-12 04:29:52

标签: python token

我被要求计算每1000个单词的纯文本文件gutenberg.txt的令牌类型比率。然后我被要求计算整个文件的平均令牌类型比率。我该怎么做呢?

到目前为止,这是我的代码:

with open ("gutenberg.txt") as f:
    lines = f.readlines()
    for line in lines:
      words = line.split()
      for word in words:
          print (word)

从这里我需要将文件拆分为1000个字长的字符串。然后我需要对每个1000字的字符串执行ttr()。这是我已经清理过的文件的html版本的链接,并在我的代码中创建了纯文本:https://www.gutenberg.org/files/1155/1155-h/1155-h.htm

一旦我得到1000个单词的每个块的每个ttr值,我被要求平均它们来计算整个文件的平均ttr。

0 个答案:

没有答案