应用错误收集

时间：2011-09-23 17:43:29

标签： lucene weka stop-words snowball

我想从html页面中提取相关的关键字。

我已经规定了所有的html内容，将文本分成单词，使用词干分析器并删除了lucene中停止单词列表中出现的所有单词。

但是现在我仍然有很多基本的动词和代词作为最常见的单词。

在lucene或snowball或其他任何地方是否有一些方法或一组词来过滤掉所有这些东西，比如“我，是，去，去，我，它，是，我们，你，我们，...... “

答案 0 :(得分：4)

您正在寻找“停用词”一词。对于Lucene，这是内置的，你可以在StopWordAnalyzer.java中添加它们（参见http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/）

答案 1 :(得分：2)

这似乎是反文档频率的一个非常简单的应用。如果你甚至有一个小的语料库，10,000个网页，你可以计算每个单词出现在文档中的概率。然后选择一个阈值，您认为这些词语开始变得有趣或满足，并排除该阈值之前的单词。

答案 2 :(得分：1)

tm的R包为R提供了许多常见NLP任务的接口，并且具有Weka接口。可能值得一试。文档为here

在更加粗略地查看您的问题时，您可能正在寻找removeStopWords()包中的tm函数。