Question

我需要阻止机器人抓取.js个文件。如您所知，Google可以抓取.js个文件。只有一个.js文件，但它会随着新的部署和更新而改变。

例如：

<script type="text/javascript" src="/7c2af7d5829e81965805cc932aeacdea8049891f.js?js_resource=true"></script>

我想确保，因为我不知道如何验证这一点，这是正确的：

// robots.txt
Disallow: /*.js$

另外，如果通过cdn提供.js文件，这是否相同？

Answer 1

robot.txt文件中不支持全局和正则表达式。来自http://www.robotstxt.org：

另请注意，不支持globbing和正则表达式 User-agent或Disallow行。＆＃39; *＆＃39;在User-agent中 field是一个特殊的值意义＆＃34;任何机器人＆＃34;。具体来说，你不能有像＆＃34; User-agent： bot ＆＃34;，＆＃34; Disallow：/ tmp / *＆＃34;或者＆＃34;禁止： * .gif要点＆＃34;

您应该将JavaScript文件移动到机器人文件中禁止的目录：

User-agent: *
Disallow: /hidden-javascript/

Answer 2

# robots.txt
Disallow: /*.js?js_resource

这很好用。您可以在Google Search Console AKA Google网站管理员工具中测试您的robots.txt。

防止机器人抓取动态JavaScript文件

2 个答案: