python-2.7 - 尝试使用python-2.7在自然语言中阻塞字符串

尝试使用python-2.7在自然语言中阻塞字符串

时间：2016-06-20 12:57:17

标签： python-2.7 nltk stemming

我从nltk.stem.snowball导入SnowballStemmer

导入

我有一个字符串如下：

text_string =“大家好。如果您能正确使用parseOutText阅读此消息，请继续阅读项目的下一部分”

我在其上运行此代码： words =“”。join（textmer.split（“”）中的单词的stemmer.stem（word））

我得到以下几个'e'缺失。无法弄清楚是什么导致它。有什么建议？感谢您的反馈

“大家好，如果你能阅读这篇消息，那么正确使用parseouttext请求继续进行项目的下一部分”

1 个答案:

答案 0 :(得分：0)

您正确使用它;它的干扰器表现得很奇怪。这可能是由于训练数据太少，或者是错误的平衡，或者干扰者统计算法的错误结论。我们不能期望完美，但是当它用常用词发生时会令人烦恼。它也阻止了一切＆＃34;到＆＃34;每一个＆＃34;，好像它是一个动词。至少在这里它清楚它在做什么。但是＆＃34; -e＆＃34;不是英文后缀......

词干分析器允许使用选项ignore_stopwords=True，这将禁止阻止词汇列表中的词汇（这些是常见的词汇，通常是不规则的，波特认为适合从训练集中排除，因为他们的结果更糟糕包括在内。）不幸的是，它对你提出的具体例子没有帮助。