我在Python中使用stop_words
包。目录路径usr/local/lib/python2.7/dist-packages/stop_words/stop-words
中english.txt文件中的原始停用词数为174
,我又添加了一些,列表变为218
。
我使用以下命令来获取停用词
from stop_words import get_stop_words
en_stop = get_stop_words('en')
len(en_stop)
仍显示174
。请告诉我如何让变化反映出来?
答案 0 :(得分:1)
您不应该在文件中添加停用词。要添加停用词,您应该创建要添加的单词列表,然后使用union
的{{1}}功能创建新列表。
set
答案 1 :(得分:-1)
要在stop_words模块中包含单词,请先使用命令' python -v'找到这些模块所在的位置。 它将显示类似' /usr/local/lib/python2.7/site-packages/stop_words-2015.2.23.1-py2.7.egg/stop_words/stop-words'的位置,在这些目录中有许多文件,包括english.txt和其他。添加一些你要在english.txt中输入的单词然后导入模块。 get_stop_words的长度已更改。