应用错误收集

为什么在javascript文件上使用robot.txt？

时间：2012-07-19 20:34:01

标签： robots.txt

您是否应该或不应该允许访问javascript或css文件？特别常见的文件，如jquery。

2 个答案:

答案 0 :(得分：8)

人们普遍认为，搜索引擎每天为指定的网站分配一定数量的带宽或URL。因此，一些网站管理员喜欢阻止来自搜索引擎的JS，CSS和样板图像以节省带宽，因此Google或Bing将抓取更多页面而不是不必要的图像。

Googler，Matt Cutts，过去曾问过网站管理员不会这样做（http://www.seroundtable.com/googlebot-javascript-css-14930.html）。

Google似乎想知道您的网站的行为方式，无论是否有javascript。有大量证据表明它们会渲染整个页面，以及执行在PageLoad上执行的其他javascript（例如Facebook评论）。

如果您阻止常见的jQuery文件，Google真的不知道它是否是常见的jQuery实现，或者您是否修改了核心文件，从而修改了体验。

我的建议是确保所有JS，CSS和样板图像都是通过单独的域或CNAME提供的。我会监控Googlebot对日志和Google Webmaster Tools的抓取，并观察他们是否花费了大量时间和带宽来抓取这些资产。如果没有，那就让他们继续爬行吧。

由于每个网站的行为都不同，您可以尝试并阻止一些吸收大量带宽的请求更多的文件......然后观察Google的“抓取的网页”是否会增加。

答案 1 :(得分：1)

通常，您不应该（或者不需要）禁止访问robots.txt中的JavaScript和CSS文件。

但是，搜索引擎（特别是Google）在索引JavaScript生成的内容方面越来越好。在大多数情况下，这是一件好事。另一方面，JavaScript也被用于专门隐藏搜索引擎中的内容，因为人们认为搜索引擎没有执行JavaScript。这可能不再是这种情况了。但是，有人建议，通过禁止在robots.txt中生成内容的这些特定JavaScript文件，您还会阻止搜索引擎生成和查看隐藏内容 - 如果这是要求。

这项技术是由seomofo于2010年6月就blocking affiliate marketing links提出的。