我需要阻止机器人抓取.js
个文件。如您所知,Google可以抓取.js
个文件。只有一个.js
文件,但它会随着新的部署和更新而改变。
例如:
<script type="text/javascript" src="/7c2af7d5829e81965805cc932aeacdea8049891f.js?js_resource=true"></script>
我想确保,因为我不知道如何验证这一点,这是正确的:
// robots.txt
Disallow: /*.js$
另外,如果通过cdn提供.js
文件,这是否相同?
答案 0 :(得分:0)
robot.txt文件中不支持全局和正则表达式。来自http://www.robotstxt.org:
另请注意,不支持globbing和正则表达式 User-agent或Disallow行。 &#39; *&#39;在User-agent中 field是一个特殊的值意义&#34;任何机器人&#34;。具体来说,你不能 有像&#34; User-agent: bot &#34;,&#34; Disallow:/ tmp / *&#34;或者&#34;禁止: * .gif要点&#34;
您应该将JavaScript文件移动到机器人文件中禁止的目录:
User-agent: *
Disallow: /hidden-javascript/
答案 1 :(得分:0)
# robots.txt
Disallow: /*.js?js_resource
这很好用。您可以在Google Search Console AKA Google网站管理员工具中测试您的robots.txt。