我正在使用多种语言,对于其中的一些语言,我有NLTK中的停用词列表,但对于其他语言则没有。
如何从代码中检查nltk.corpus.stopwords.words(“ language”)中是否有语言?
在没有找到给定语言的情况下,我希望在不处理异常的情况下执行此操作。
类似这样的东西:
if "language" in nltk.corpus.stopwords.languages:
sw = nltk.corpus.stopwords.words("language")
else:
sw = []
...
答案 0 :(得分:1)
from nltk.corpus import stopwords
stopwords.fileids()
输出
['arabic',
'azerbaijani',
'danish',
'dutch',
'english',
'finnish',
'french',
'german',
'greek',
'hungarian',
'indonesian',
'italian',
'kazakh',
'nepali',
'norwegian',
'portuguese',
'romanian',
'russian',
'spanish',
'swedish',
'turkish']
这似乎可以解决问题?
答案 1 :(得分:-1)
这给出了可用的语言列表:
[lang for lang in nltk.corpus.stopwords.fileids()]