防止机器人抓取动态JavaScript文件

时间:2016-05-13 15:12:57

标签: javascript web-crawler bots googlebot google-crawlers

我需要阻止机器人抓取.js个文件。如您所知,Google可以抓取.js个文件。只有一个.js文件,但它会随着新的部署和更新而改变。

例如:

<script type="text/javascript" src="/7c2af7d5829e81965805cc932aeacdea8049891f.js?js_resource=true"></script>

我想确保,因为我不知道如何验证这一点,这是正确的:

// robots.txt
Disallow: /*.js$

另外,如果通过cdn提供.js文件,这是否相同?

2 个答案:

答案 0 :(得分:0)

robot.txt文件中不支持全局和正则表达式。来自http://www.robotstxt.org

  

另请注意,不支持globbing和正则表达式   User-agent或Disallow行。 &#39; *&#39;在User-agent中   field是一个特殊的值意义&#34;任何机器人&#34;。具体来说,你不能   有像&#34; User-agent: bot &#34;,&#34; Disallow:/ tmp / *&#34;或者&#34;禁止:   * .gif要点&#34;

您应该将JavaScript文件移动到机器人文件中禁止的目录:

User-agent: *
Disallow: /hidden-javascript/

答案 1 :(得分:0)

# robots.txt
Disallow: /*.js?js_resource

这很好用。您可以在Google Search Console AKA Google网站管理员工具中测试您的robots.txt。