网页抓取和Pagerank

时间:2015-02-17 19:20:35

标签: search web-crawler pagerank search-engine-bots

我是一名计算机科学专业的学生,​​在网络抓取和构建搜索引擎方面我有点缺乏经验。目前,我正在使用最新版本的Open Search Server,并且正在抓取数千个域。当使用内置的搜索引擎创建工具时,我获得与我的查询相关的搜索结果,但是他们使用文档的矢量模型进行排名,而不是使用Pagerank算法或类似的东西。因此,最重要的结果只是略微有用,而维基百科等网站的高质量结果则隐藏在第二页。

有没有办法在Open Search Server中运行粗略的Pagerank算法?如果没有,是否有一个类似易于使用的开源软件包呢?

感谢您的帮助!这是我第一次做这样的事情,所以非常感谢任何反馈。

2 个答案:

答案 0 :(得分:1)

我不熟悉开放式搜索服务器,但我知道大多数在搜索引擎上工作的学生都使用LuceneIndri。阅读有关文档搜索的新方法的论文,您会发现其中大多数使用这两种API中的一种。 Lucene在定义不同等级算法方面比indri更灵活。我建议看看这两个,看看它们是否方便你的目的。

答案 1 :(得分:0)

如您所述,OpenSearchServer的Web爬网模板使用具有基于向量空间模型的相关性的搜索查询。但是如果你使用最后一个版本(v1.5.11),它也会混合反向链接的数量。

您可以根据反向链接更改乐谱的重量,默认设置为1。

Scoring panel of OpenSearchServer

我们目前正在努力提供更多相关性控制。这将在OpenSearchServer的未来版本中可见。

相关问题