术语/短语在文本中搜索

时间:2011-04-30 21:32:53

标签: extract term

我有一个术语和短语数据库 如果文本中存在这些术语/短语,则表明它与之相关。 它可以在线提供2个apis http://developer.yahoo.com/search/content/V1/termExtraction.html
http://developer.zemanta.com/
但结果不是我想要的。
我可以直观地看到它可以以非常精细的方式完成(不是资源密集型) 我的问题就在于此。我无法想象如何以快速的方式做到这一点,并且资源紧张(CPU和内存)非常低 术语/短语以百万计,文本字符串也是如此。 PHP是我熟悉的唯一语言。 谢谢你的建议。

1 个答案:

答案 0 :(得分:0)

您可以使用lucene从文档中提取术语并将其与数据库匹配。据我所知,有一个用于lucene的PHP / Zend API /端口。

在java中如何使用lucene进行类似的问题。这应该指向正确的方向:Effective search on a small text