我正在玩Natural Language Toolkit用于python,我正在尝试在终端中打印文件文本,这就是我所做的
import io
import nltk
from nltk.text import Text
with io.open("job.txt", "+r", encoding="utf-8") as my_file:
my_unicode_string = my_file.read()
job = Text(my_unicode_string)
print(job)
我在终端看到的输出如下
<Text: * W o r l d T...>
打印文本需要做什么?
我注意到的另一件事是,如果我做了
print(job.count('language'))
我得到的输出是0
这是完全错误的,因为我很确定文本文件中存在这个词。
我真的很感激这方面的帮助。
答案 0 :(得分:0)
我认为这是因为您的my_unicode_string
是一个字符串,当您运行Text(my_unicode_string)
时,您会对该字符串的所有字符列表进行操作,但您的期望是在字符串的所有单词列表上运行。尝试将my_unicode_string = my_file.read()
替换为my_unicode_string = my_file.read().split(" ")
。