抓取网站的基本规则

时间:2014-08-23 17:22:24

标签: robots.txt web-crawler

我正在研究网站爬行。

我想问下面的问题。

  1. 如果Google搜索结果中显示某个网站,我可以抓取该网站吗?

  2. 在网站的robots.txt中,写入以下内容。如何使用浏览器确认本网站禁止抓取的网页?

     Disallow: /usr/top
    
  3. 你能告诉我上述问题的答案吗?

2 个答案:

答案 0 :(得分:1)

  

如果Google搜索结果中显示某个网站,我可以抓取该网站吗?

我认为您要兑现robots.txt。在这种情况下,答案是:,不一定。

你必须检查robots.txt。可能是谷歌的机器人被允许抓取它,但你的机器人是不允许的。

  

我想知道/usr/top

中指明的具体网页网址

当存在类似Disallow: /usr/top的行时,您无法知道哪些现有网址被此阻止。 Disallow始终将URL路径的开头作为值。因此,在此示例中,它会阻止以下网址(假设robots.txt位于http://example.com/robots.txt):

  • http://example.com/usr/top
  • http://example.com/usr/top/
  • http://example.com/usr/top.html
  • http://example.com/usr/topfoo
  • http://example.com/usr/top/foo/bar
  • http://example.com/usr/top/foo/bar.html
  • ...

答案 1 :(得分:0)

  • 如果Google搜索结果中显示某个网站,我可以抓取该网站吗?

简短的回答是也许。答案很长:许多网站都有使用/协议或使用条款,如果允许抓取它可能会提及。例如,我相信FaceBook不允许抓取。

关于robots.txt文件:this link may be helpful