从我的数据库排名文档

时间:2011-12-29 03:17:26

标签: ranking text-mining

每次我搜索有关文档排名或文本分类的论文/文档时,我都会被重定向到与网页相关的页面,但我想在存储库中对文档进行排名。

有人可以推荐一本书/论文来讨论文档数据库中存在的排名文档(每个搜索结果都返回页面排名或其他与互联网相关的算法)

我的目标是根据数据库与查询的相关性或基于用户的参考文档(不涉及互联网或网站)对我的数据库进行排名

1 个答案:

答案 0 :(得分:0)

您应该坚持使用现有的文档排名库或数据库。大多数SQL数据库都有全文搜索机制。如果您只使用文本索引,您可以查看许多文本搜索/文档排名解决方案,例如Lucene(还有许多其他解决方案)。
如果您想了解排名算法的工作原理,可能值得一看http://en.wikipedia.org/wiki/Tf-idfhttp://en.wikipedia.org/wiki/Cosine_similarity。 如果您想了解如何将此类信息编入索引以提高搜索效率,请查看http://en.wikipedia.org/wiki/Inverted_index 但是请注意,我不是这方面的专家,还有许多其他方法,尽管它们的基本形式不应该太不相同。
使用为您执行此脏任务的系统不仅可以节省您的时间,还可以为您提供更强大,更可靠的查询功能,然后您可以在相当长的时间内自行实施。