使用NLTK从停用词算法中删除重音词

时间:2018-06-27 16:00:29

标签: python nltk

我正在尝试在Python中开发一种简单的算法,以从文本中删除停用词,但对于带有重音的单词却遇到了问题。我正在使用以下代码:

import io
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from unicodedata import normalize
import sys

reload(sys)
sys.setdefaultencoding('utf8')

stop_words = set(stopwords.words('portuguese'))
file1 = open("C:\Users\Desktop\Test.txt")
print("File open")
line = file1.read()
words = line.split()
#convert the words to lower case
words = [word.lower() for word in words]
print("Running!")
for r in words:
    if r not in stop_words:
            appendFile = open('finalText.txt','a')
            appendFile.writelines(" "+r)
            appendFile.close()

print("Finished!")

使用以下测试文件运行代码时:

E É Á A O Ó U Ú

我有这个输出:

 É Á Ó Ú

似乎无法识别重读的单词,并且对utf-8使用“ setdefaultencoding”不起作用,有人知道我可以用来解决此问题的解决方案吗?

1 个答案:

答案 0 :(得分:0)

这不是编码或口音问题。这些只是不在列表中的单词:

from nltk.corpus import stopwords
stop_words = set(stopwords.words('portuguese'))

print(" ".join([w for w in stop_words if len(w) == 1]))
# >>> e à o a
# -> does not contain á é ó ú

print("À".lower() in stop_words)
# >>> True

如果需要,您可以在集合(stop_words.add("é"))中添加单词。