我有1,000,000条记录的新闻存储我使用lucene库进行全文搜索我的新闻(标题,正文,新闻日期,...)我需要找到最好的查询,以便从用户输入找到最相关的结果我应该采用什么策略或算法用来实现这个
现在我正在使用类似这样的东西(标题^ 3.0 body ^ 2.0),但我认为它很简单,我正在寻找更复杂的算法来获得更相关的结果。
如果你帮助我找到我的溢出的朋友,我真的很感激!
答案 0 :(得分:0)
提高搜索相关性需要时间和迭代细化。
LucidImagination团队写得很好(虽然非常基于solr): http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Search-Application-Relevance-Issues
您可能希望分析日志并将每个文档的综合浏览量添加到索引中,以便按排序顺序对其进行分析。
只要捕捉到幅度变化,数字就不必非常准确。
您还应该分析错误拼写的日志。 lucidimagination的家伙有一些关于索引他们的播客或博客。