我想从html页面中提取相关的关键字。
我已经规定了所有的html内容,将文本分成单词,使用词干分析器并删除了lucene中停止单词列表中出现的所有单词。
但是现在我仍然有很多基本的动词和代词作为最常见的单词。
在lucene或snowball或其他任何地方是否有一些方法或一组词来过滤掉所有这些东西,比如“我,是,去,去,我,它,是,我们,你,我们,...... “
答案 0 :(得分:4)
您正在寻找“停用词”一词。对于Lucene,这是内置的,你可以在StopWordAnalyzer.java中添加它们(参见http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)
答案 1 :(得分:2)
这似乎是反文档频率的一个非常简单的应用。如果你甚至有一个小的语料库,10,000个网页,你可以计算每个单词出现在文档中的概率。然后选择一个阈值,您认为这些词语开始变得有趣或满足,并排除该阈值之前的单词。
或者,此列表看起来不错。 http://www.lextek.com/manuals/onix/stopwords1.html
答案 2 :(得分:1)