如何有效地提取与字符串相关的关键字?我的关键字列表是预定义的。例如,在一篇关于米歇尔·奥巴马的文章中也提到了巴拉克·奥巴马,我想用关键字Michelle Obama
提取Barack Obama
和Michelle Obama
获得更高的相关性值(Michelle Obama
我的关键字列表中存在Barack Obama
。
检查字符串中每个关键字的出现次数似乎效率不高。我的应用程序是用PHP开发的,但任何语言都可以,如果我能有效地做到这一点。
我尝试过OpenCalais,但它没有检测到我的大部分关键字。是否可以使用Lucene提取关键字?
答案 0 :(得分:1)
apache lucene包适合你。但是,如果您有标题和段落,则可以过滤掉停用词,为标题中的单词提供更高的排名,然后在段落中匹配它们或它们的表单。您可以查阅一些文本摘要文章,以便更好地编程。< / p>