我们可以告诉机器人抓取或不抓取在robot.txt中抓取我们的网站。另一方面,我们可以控制Google网站管理员的抓取速度(Google机器人抓取网站的程度)。我想知道是否可以通过robots.txt
来限制抓取工具的活动我的意思是接受机器人抓取页面,但限制它们的存在时间或页面或大小!
答案 0 :(得分:11)
你可以在robots.txt中使用一个指令,它是“Crawl-delay”。
Crawl-delay: 5
意思是机器人应该每5秒抓取一页不超过一页。 但据我所知,robots.txt并未正式支持此指令。
还有一些机器人根本没有真正接受统计robots.txt文件。 因此,即使您不允许访问某些网页,它们仍然可能被某些机器人抓取,当然不是像Google这样最大的机器人。
例如,百度可以忽略robots.txt,但这不是肯定的。我没有此信息的官方来源,因此您只能谷歌。
答案 1 :(得分:1)
不,robots.txt
文件只能指定您不希望编入索引的页面以及这些规则适用的用户代理。你不能对文件做任何其他事情。
有些网站使用Allow
和Sitemap
指令,但根据官方网站,它们似乎不是有效指令,即使某些抓取工具可能会尊重它们。
答案 2 :(得分:1)
我知道这是一个非常古老的问题,但我想补充一点,根据谷歌文档,这里是官方答案:
您通常可以调整Google中的抓取速度设置 网站站长工具帐户。</ p>
per:https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04
在网站站长工具中,您可以按照以下步骤操作:
在Search Console主页上,单击所需的站点。
单击齿轮图标,然后单击“网站设置”。
在抓取速度部分中,选择所需的选项,然后根据需要限制抓取速度。
新的抓取速度有效期为90天。
答案 3 :(得分:0)
不是我找到的。 Robots.txt是一个放置您希望机器人包含或排除的目录或文件的地方。如果有一种方式它还不是标准的。请记住,创建机器人的人选择是否尊重robots.txt,并非所有机器人(“坏机器人”)都尊重此文件。
目前,如果有设置可以降低抓取速度,网站停留时间等,那么它将基于机器人,而不是标准化为robots.txt值。