网页抓取工具在哪里获取要抓取的网站列表?

时间:2013-07-09 20:01:35

标签: web-crawler

我知道搜索引擎向用户提供搜索结果所采取的所有基本步骤,但有一点我不明白,那就是要抓取的网站列表的物理编译。 googlebot等程序如何获取他们将搜索的网站的实际列表?

2 个答案:

答案 0 :(得分:0)

这可能因抓取工具而异,但最有可能的起点是域名注册。

答案 1 :(得分:0)

Google等搜索引擎通常会通过从其他网站发现新内容来提供新内容。

例如,如果您有一个已经抓取的网站并且链接到新网站。当Google访问您的网站并看到新网站时,它会开始为新网站编制索引。

另一方面,您也可以使用要编入索引的新网站ping Google,因此它不仅是被动的,而且还是主动的。