防止漫游器通过html表单爬网?

时间:2018-09-13 15:33:53

标签: forms url bots robots.txt

下面的文章提到机器人可以抓取html表单,阅读javascript,尝试url等。

https://webmasters.googleblog.com/2008/04/crawling-through-html-forms.html

有一个关于使用robots.txt阻止此行为的说法:

  

这意味着,如果robots.txt中禁止使用搜索表单,我们将不会抓取该表单将生成的任何URL。

我的问题是我的搜索表单包含在任何页面中,所以我不只是禁止一个或几个URL。

因此,有没有办法告诉Googlebot,Binbot(或所有机器人):

  1. 是否无法浏览这些表格?
  2. 是否不构成Sitemap或网站url中没有的URL?

(robots.txt听起来更好,因为Googlebot不希望看到其抓取的页面与普通用户显示的页面之间的差异)...

自3个星期以来,我从Googlebot抓取了很多奇怪的内容,最近又从Bingbot抓到了。

0 个答案:

没有答案