谷歌如何抓取页面

时间:2013-05-06 18:40:28

标签: php

我只是对Google抓取网页的方式感到好奇,我有一些代码可以告诉我Google Bot是否在我的网站上以及它在哪些网页上。

如果Google正在抓取某个页面,例如/page.html,该页面中包含指向该网站其他10个页面的链接。

它是否只会添加page.html以进行可能的索引,因为它是它所在的页面,还是会存储page.html上的所有链接以进行可能的索引?

3 个答案:

答案 0 :(得分:1)

答案 1 :(得分:0)

  

如果Google正在抓取某个页面,例如/page.html,该页面中包含指向该网站其他10个页面的链接。

     

它是否只会添加page.html以进行可能的索引,因为它是它所在的页面,还是会存储page.html上的所有链接以进行可能的索引?

链接正是谷歌的机器人在互联网上寻找内容的方式。是的,它们将排队等待索引,除非它们以某种方式排除(robots.txt,NOINDEX元标记等)

答案 2 :(得分:0)

是的,Google的抓取工具 - Googlebot - 会存储这些链接以进行可能的索引编制,除非restricted by the site's webmaster

  

Googlebot的抓取过程以网页网址列表开头,   从以前的抓取过程生成并使用Sitemap进行扩充   网站管理员提供的数据。正如Googlebot访问其中的每一个   它检测每个页面上的链接(SRC和HREF)并将其添加到的网站   它要抓取的页面列表。