我查看了Algorithms of the Intelligent Web描述(第55页)一个有趣的算法 - 名为DocRank - 用于为商业文档创建PageRank得分(即没有PDF,MS Word文档等链接的文档)等等......)简而言之,它分析集合中每个文档之间的术语频率交集。
其他人是否可以识别其他地方描述的有趣算法,或者想在这里分享一些新颖的东西,以应用这些类型的文档来改善搜索结果?
请放弃涉及点击跟踪或其他操作不等有关分析实际文档的答案。
答案 0 :(得分:18)
答案 1 :(得分:2)
另一个有趣的算法 - TextRank - 听起来与原始问题中引用的DocRank非常相似。基于图形,无监督,迭代直到收敛。
答案 2 :(得分:1)
我对这个主题做了一些额外的研究,找到了Wikipedia entry for the Okapi BM25 algorithm。它还有一个将文档结构考虑在内的后续BM25F,但这似乎与HTML / XML更相关。
BM25合并:
最后,维基百科条目链接到Lucene implementation。
与@ Doug的上述答案相比,这似乎是一个更复杂的算法。
答案 3 :(得分:1)
以下是一些排名算法,但我还没有看到任何实现。