我从nltk.stem.snowball导入SnowballStemmer
导入我有一个字符串如下:
text_string =“大家好。如果您能正确使用parseOutText阅读此消息,请继续阅读项目的下一部分”
我在其上运行此代码: words =“”。join(textmer.split(“”)中的单词的stemmer.stem(word))
我得到以下几个'e'缺失。无法弄清楚是什么导致它。有什么建议?感谢您的反馈
“大家好,如果你能阅读这篇消息,那么正确使用parseouttext请求继续进行项目的下一部分”
答案 0 :(得分:0)
您正确使用它;它的干扰器表现得很奇怪。这可能是由于训练数据太少,或者是错误的平衡,或者干扰者统计算法的错误结论。我们不能期望完美,但是当它用常用词发生时会令人烦恼。它也阻止了一切"到"每一个",好像它是一个动词。至少在这里它清楚它在做什么。但是" -e"不是英文后缀......
词干分析器允许使用选项ignore_stopwords=True
,这将禁止阻止词汇列表中的词汇(这些是常见的词汇,通常是不规则的,波特认为适合从训练集中排除,因为他们的结果更糟糕包括在内。)不幸的是,它对你提出的具体例子没有帮助。