NLTK-缺少停用词-英文

时间:2019-05-20 20:13:23

标签: python python-3.x nltk

我刚刚下载了所有资源的最新NLTK版本。

我看到couldwould未列为停用词。 但是should被视为停用词。

这是某种已知的错误还是...?

In [7]: import nltk

In [8]: "shouldn't" in nltk.corpus.stopwords.words("english")
Out[8]: True

In [9]: "couldn't" in nltk.corpus.stopwords.words("english")
Out[9]: True

In [10]: "wouldn't" in nltk.corpus.stopwords.words("english")
Out[10]: True

In [11]: "should" in nltk.corpus.stopwords.words("english")
Out[11]: True

In [12]: "could" in nltk.corpus.stopwords.words("english")
Out[12]: False

In [13]: "would" in nltk.corpus.stopwords.words("english")
Out[13]: False

2 个答案:

答案 0 :(得分:1)

这不是错误。什么是停用词,什么不被视为停用词,总是有些模糊。列出该列表的人出于某些原因而“应该”-也许是有充分根据的,也许不是这样-但是无论您是否应该能够将其添加到您自己的项目的语料库中,并查看它是否可以为您提供更好的结果任务。

无论如何,这似乎值得提起他们的github issues

答案 1 :(得分:1)

哦,这实际上很有趣!

Joel Nothman曾经浏览过停用词并发现了一些令人不安的结果。参见https://aclweb.org/anthology/papers/W/W18/W18-2502/

同意Ethan McCue的观点,这绝对是应该通过将其添加到NLTK的github问题跟踪器中进行修补/解决的问题。