Question

我正在研究网站爬行。

我想问下面的问题。

你能告诉我上述问题的答案吗？

Answer 1

如果Google搜索结果中显示某个网站，我可以抓取该网站吗？

我认为您要兑现robots.txt。在这种情况下，答案是：否，不一定。

你必须检查robots.txt。可能是谷歌的机器人被允许抓取它，但你的机器人是不允许的。

我想知道/usr/top
中指明的具体网页网址

当存在类似Disallow: /usr/top的行时，您无法知道哪些现有网址被此阻止。 Disallow始终将URL路径的开头作为值。因此，在此示例中，它会阻止以下网址（假设robots.txt位于http://example.com/robots.txt）：

Answer 2

简短的回答是也许。答案很长：许多网站都有使用/协议或使用条款，如果允许抓取它可能会提及。例如，我相信FaceBook不允许抓取。

关于robots.txt文件：this link may be helpful。