应用错误收集

网页抓取和Pagerank

时间：2015-02-17 19:20:35

标签： search web-crawler pagerank search-engine-bots

我是一名计算机科学专业的学生，在网络抓取和构建搜索引擎方面我有点缺乏经验。目前，我正在使用最新版本的Open Search Server，并且正在抓取数千个域。当使用内置的搜索引擎创建工具时，我获得与我的查询相关的搜索结果，但是他们使用文档的矢量模型进行排名，而不是使用Pagerank算法或类似的东西。因此，最重要的结果只是略微有用，而维基百科等网站的高质量结果则隐藏在第二页。

有没有办法在Open Search Server中运行粗略的Pagerank算法？如果没有，是否有一个类似易于使用的开源软件包呢？

感谢您的帮助！这是我第一次做这样的事情，所以非常感谢任何反馈。

2 个答案:

答案 0 :(得分：1)

我不熟悉开放式搜索服务器，但我知道大多数在搜索引擎上工作的学生都使用Lucene或Indri。阅读有关文档搜索的新方法的论文，您会发现其中大多数使用这两种API中的一种。 Lucene在定义不同等级算法方面比indri更灵活。我建议看看这两个，看看它们是否方便你的目的。

答案 1 :(得分：0)

如您所述，OpenSearchServer的Web爬网模板使用具有基于向量空间模型的相关性的搜索查询。但是如果你使用最后一个版本（v1.5.11），它也会混合反向链接的数量。

您可以根据反向链接更改乐谱的重量，默认设置为1。

Scoring panel of OpenSearchServer

我们目前正在努力提供更多相关性控制。这将在OpenSearchServer的未来版本中可见。