哪里可以找到详尽的停用词列表?

时间:2016-06-08 11:31:17

标签: nlp lexical-analysis stop-words

我在哪里可以找到详尽的停用词列表?我所拥有的那个很短,似乎不适用于科学文本。 我正在创建词汇链以从科学论文中提取关键主题。问题是像basedregarding等词语也应该被视为停用词,因为它们没有多大意义。

2 个答案:

答案 0 :(得分:2)

您还可以轻松添加到现有的停用词列表。例如。使用NLTK工具包中的那个:

from nltk.corpus import stopwords

然后添加您认为缺少的内容:

stopwords = stopwords.words('english')+["based", "regarding"]

原始NLTK列表描述为here

答案 1 :(得分:1)

很难找到一个详尽的停用词列表,因为给定的词可以被视为给定域中的停用词,但它是另一个域中的重要词。

你可以看看一些停用词列表:

http://blog.adlegant.com/how-to-install-nltk-corporastopwords/

http://www.lextek.com/manuals/onix/stopwords1.html

http://www.ranks.nl/stopwords

http://xpo6.com/list-of-english-stop-words/