Python - NLP无法打印文件文本

时间:2018-03-10 11:37:19

标签: python nltk

我正在玩Natural Language Toolkit用于python,我正在尝试在终端中打印文件文本,这就是我所做的

import io
import nltk
from nltk.text import Text

with io.open("job.txt", "+r", encoding="utf-8") as my_file:
     my_unicode_string = my_file.read()

job = Text(my_unicode_string)
print(job)

我在终端看到的输出如下

<Text: * W o r l d   T...>

打印文本需要做什么?

我注意到的另一件事是,如果我做了

print(job.count('language'))

我得到的输出是0这是完全错误的,因为我很确定文本文件中存在这个词。

我真的很感激这方面的帮助。

1 个答案:

答案 0 :(得分:0)

我认为这是因为您的my_unicode_string是一个字符串,当您运行Text(my_unicode_string)时,您会对该字符串的所有字符列表进行操作,但您的期望是在字符串的所有单词列表上运行。尝试将my_unicode_string = my_file.read()替换为my_unicode_string = my_file.read().split(" ")