我有一个术语和短语数据库
如果文本中存在这些术语/短语,则表明它与之相关。
它可以在线提供2个apis
http://developer.yahoo.com/search/content/V1/termExtraction.html
http://developer.zemanta.com/
但结果不是我想要的。
我可以直观地看到它可以以非常精细的方式完成(不是资源密集型)
我的问题就在于此。我无法想象如何以快速的方式做到这一点,并且资源紧张(CPU和内存)非常低
术语/短语以百万计,文本字符串也是如此。
PHP是我熟悉的唯一语言。
谢谢你的建议。
答案 0 :(得分:0)
您可以使用lucene从文档中提取术语并将其与数据库匹配。据我所知,有一个用于lucene的PHP / Zend API /端口。
在java中如何使用lucene进行类似的问题。这应该指向正确的方向:Effective search on a small text