解释简单的搜索引擎

时间:2012-02-08 13:53:05

标签: web-crawler

任何人都能解释一下简单的搜索引擎吗?

应该是什么样的,它应该具有什么组件以及它是如何工作的?

有一个网络爬虫,有索引和查询是我所知道的。它最难的部分是什么?

在哪里使用pagerank算法 - 在抓取?或查询即显示结果? 什么是索引?

我读过的东西,但有点复杂。

我想做的是创建简单的java搜索引擎。无论使用什么算法都没关系,到目前为止我有广度优先,我认为它是最简单的算法。 我有一个简单的网络爬虫,我输入种子网址和搜索页面的限制。 首先,抓取工具检查链接,robots.txt,如果可以下载第一页,则从页面中提取网址并将其添加到列表中。当抓取工具从第一页完成提取网址时,它会在列表中显示第一个网址并提取链接等等。

索引怎么样?

我真的不明白这一部分。如果我想要整页索引,我该怎么做?只需将下载页面的全文添加到数据库中即可?

索引是我最重要的部分,请解释这一部分。

提前Thanx!

1 个答案:

答案 0 :(得分:0)

本书Algorithms of the Intelligent Web对PageRank算法有很好的介绍,并且可以自己实现它。我建议你得到这份的副本,并通过第2章来深入了解这个空间。