下面的文章提到机器人可以抓取html表单,阅读javascript,尝试url等。
https://webmasters.googleblog.com/2008/04/crawling-through-html-forms.html
有一个关于使用robots.txt阻止此行为的说法:
这意味着,如果robots.txt中禁止使用搜索表单,我们将不会抓取该表单将生成的任何URL。
我的问题是我的搜索表单包含在任何页面中,所以我不只是禁止一个或几个URL。
因此,有没有办法告诉Googlebot,Binbot(或所有机器人):
(robots.txt听起来更好,因为Googlebot不希望看到其抓取的页面与普通用户显示的页面之间的差异)...
自3个星期以来,我从Googlebot抓取了很多奇怪的内容,最近又从Bingbot抓到了。