爬虫种子列表包含什么?

时间:2011-05-17 16:07:53

标签: search-engine web-crawler google-search seed

我一直在阅读如何实现抓取工具。 我知道我们首先要访问的URL列表(种子列表)。 访问所有这些URL并将访问过的页面中的所有链接添加到列表(边界)。 那么我应该在这个种子列表中添加多少?我是否只需要添加尽可能多的URL,并希望它们能够让我获得与www上的URL一样多的内容,这是否真的能保证我会获得所有其他URL? 或者有一些约定要做到这一点?我的意思是......像谷歌这样的搜索引擎会做什么?

1 个答案:

答案 0 :(得分:3)

基本上,他们使用它们之间的连接(链接)制作了大量网站。您的搜索引擎知道的网站越多越好。这里唯一的问题是能够使这个列表有用。也就是说,网站可能性的大量列表并不意味着搜索结果设置良好,因此您必须能够分辨每个网页中的重要内容。

但是根据你拥有的信息处理能力,没有必要停在某个地方。

那不确保你会到达那里的每一个网址,但它基本上是抓取网络的唯一实用方法。