Question

我正在使用多种语言，对于其中的一些语言，我有NLTK中的停用词列表，但对于其他语言则没有。

如何从代码中检查nltk.corpus.stopwords.words（“ language”）中是否有语言？

在没有找到给定语言的情况下，我希望在不处理异常的情况下执行此操作。

类似这样的东西：

if "language" in nltk.corpus.stopwords.languages:
   sw = nltk.corpus.stopwords.words("language")
else:
   sw = []
...

Answer 1

from nltk.corpus import stopwords
stopwords.fileids()

输出

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

这似乎可以解决问题？

Answer 2

这给出了可用的语言列表：

[lang for lang in nltk.corpus.stopwords.fileids()]

NLTK停用词语言

2 个答案: