没有链接的文档有哪些有用的排名算法?

时间:2010-12-06 01:54:05

标签: algorithm search machine-learning

我查看了Algorithms of the Intelligent Web描述(第55页)一个有趣的算法 - 名为DocRank - 用于为商业文档创建PageRank得分(即没有PDF,MS Word文档等链接的文档)等等......)简而言之,它分析集合中每个文档之间的术语频率交集。

其他人是否可以识别其他地方描述的有趣算法,或者想在这里分享一些新颖的东西,以应用这些类型的文档来改善搜索结果?

请放弃涉及点击跟踪或其他操作等有关分析实际文档的答案。

4 个答案:

答案 0 :(得分:18)

答案 1 :(得分:2)

另一个有趣的算法 - TextRank - 听起来与原始问题中引用的DocRank非常相似。基于图形,无监督,迭代直到收敛。

Java implementation

答案 2 :(得分:1)

我对这个主题做了一些额外的研究,找到了Wikipedia entry for the Okapi BM25 algorithm。它还有一个将文档结构考虑在内的后续BM25F,但这似乎与HTML / XML更相关。

BM25合并:

  1. 集合中的平均文档长度,
  2. 特定文件的长度
  3. 术语频率
  4. 最后,维基百科条目链接到Lucene implementation

    与@ Doug的上述答案相比,这似乎是一个更复杂的算法。

答案 3 :(得分:1)

以下是一些排名算法,但我还没有看到任何实现。