我正在研究网站爬行。
我想问下面的问题。
如果Google搜索结果中显示某个网站,我可以抓取该网站吗?
在网站的robots.txt中,写入以下内容。如何使用浏览器确认本网站禁止抓取的网页?
Disallow: /usr/top
你能告诉我上述问题的答案吗?
答案 0 :(得分:1)
如果Google搜索结果中显示某个网站,我可以抓取该网站吗?
我认为您要兑现robots.txt。在这种情况下,答案是:否,不一定。
你必须检查robots.txt。可能是谷歌的机器人被允许抓取它,但你的机器人是不允许的。
我想知道
中指明的具体网页网址/usr/top
当存在类似Disallow: /usr/top
的行时,您无法知道哪些现有网址被此阻止。 Disallow
始终将URL路径的开头作为值。因此,在此示例中,它会阻止以下网址(假设robots.txt位于http://example.com/robots.txt
):
http://example.com/usr/top
http://example.com/usr/top/
http://example.com/usr/top.html
http://example.com/usr/topfoo
http://example.com/usr/top/foo/bar
http://example.com/usr/top/foo/bar.html
答案 1 :(得分:0)
简短的回答是也许。答案很长:许多网站都有使用/协议或使用条款,如果允许抓取它可能会提及。例如,我相信FaceBook不允许抓取。
关于robots.txt文件:this link may be helpful。