NLTK停用词语言

时间:2019-02-21 16:46:49

标签: python nltk

我正在使用多种语言,对于其中的一些语言,我有NLTK中的停用词列表,但对于其他语言则没有。

如何从代码中检查nltk.corpus.stopwords.words(“ language”)中是否有语言?

在没有找到给定语言的情况下,我希望在不处理异常的情况下执行此操作。

类似这样的东西:

if "language" in nltk.corpus.stopwords.languages:
   sw = nltk.corpus.stopwords.words("language")
else:
   sw = []
...

2 个答案:

答案 0 :(得分:1)

from nltk.corpus import stopwords
stopwords.fileids()

输出

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

这似乎可以解决问题?

答案 1 :(得分:-1)

这给出了可用的语言列表:

[lang for lang in nltk.corpus.stopwords.fileids()]