如何查找与特定文本语料库相关的所有文件的“单词覆盖率”

时间:2019-06-22 03:55:07

标签: python-3.x nlp

在nltk.corpus的文本语料库“ gutenberg”的单独一行中显示每个文件ID的单词覆盖率。

  1. 尝试将每个文件中的字符总数除以字数。
  2. 通过将每个文件中的字符总数除以唯一的字数进行尝试。
from nltk.corpus import gutenberg
for fileid in gutenberg.fileids(): 
    print((len(gutenberg.raw(fileid))/len(gutenberg.words(fileid))), fileid)
from nltk.corpus import gutenberg
for fileid in gutenberg.fileids(): 
   print((len(gutenberg.raw(fileid))/len(set(gutenberg.words(fileid)))), fileid)

请告知----
1.我要完成的挑战是
2.预期结果对我来说是未知的
3.如果输出正确-将可以进行挑战的下一步
4.通过运行上面的代码-我没有得到任何错误,但是无论如何都没有要求输出,这也不允许我完成挑战。

0 个答案:

没有答案