高效的关键字检测/提取。预定义的关键字集

时间:2011-02-01 13:52:59

标签: java php text-analysis semantic-analysis

如何有效地提取与字符串相关的关键字?我的关键字列表是预定义的。例如,在一篇关于米歇尔·奥巴马的文章中也提到了巴拉克·奥巴马,我想用关键字Michelle Obama提取Barack ObamaMichelle Obama获得更高的相关性值(Michelle Obama我的关键字列表中存在Barack Obama

检查字符串中每个关键字的出现次数似乎效率不高。我的应用程序是用PHP开发的,但任何语言都可以,如果我能有效地做到这一点。

我尝试过OpenCalais,但它没有检测到我的大部分关键字。是否可以使用Lucene提取关键字?

1 个答案:

答案 0 :(得分:1)

apache lucene包适合你。但是,如果您有标题和段落,则可以过滤掉停用词,为标题中的单词提供更高的排名,然后在段落中匹配它们或它们的表单。您可以查阅一些文本摘要文章,以便更好地编程。< / p>