我正在做的是附加一个字符串=" NOTRELATED"在文件中的每个停用词。这是我的代码但不起作用:
stop_words = set(stopwords.words('english'))
for line in word_tokenize(input_file):
if line == stop_words:
line = line.strip("\n") + " NOTRELATED\n"
output_file.write(line)
答案 0 :(得分:1)
import nltk
for line in word_tokenize(input_file):
line
标识符名称错误。你的意思是word
。
if line == stop_words:
等式测试==
不正确。你的意思是if word in stop_words:
。