为什么在javascript文件上使用robot.txt?

时间:2012-07-19 20:34:01

标签: robots.txt

您是否应该或不应该允许访问javascript或css文件?特别常见的文件,如jquery。

2 个答案:

答案 0 :(得分:8)

人们普遍认为,搜索引擎每天为指定的网站分配一定数量的带宽或URL。因此,一些网站管理员喜欢阻止来自搜索引擎的JS,CSS和样板图像以节省带宽,因此Google或Bing将抓取更多页面而不是不必要的图像。

Googler,Matt Cutts,过去曾问过网站管理员不会这样做(http://www.seroundtable.com/googlebot-javascript-css-14930.html)。

Google似乎想知道您的网站的行为方式,无论是否有javascript。有大量证据表明它们会渲染整个页面,以及执行在PageLoad上执行的其他javascript(例如Facebook评论)。

如果您阻止常见的jQuery文件,Google真的不知道它是否是常见的jQuery实现,或者您是否修改了核心文件,从而修改了体验。

我的建议是确保所有JS,CSS和样板图像都是通过单独的域或CNAME提供的。我会监控Googlebot对日志和Google Webmaster Tools的抓取,并观察他们是否花费了大量时间和带宽来抓取这些资产。如果没有,那就让他们继续爬行吧。

由于每个网站的行为都不同,您可以尝试并阻止一些吸收大量带宽的请求更多的文件......然后观察Google的“抓取的网页”是否会增加。

答案 1 :(得分:1)

通常,您不应该(或者不需要)禁止访问robots.txt中的JavaScript和CSS文件。

但是,搜索引擎(特别是Google)在索引JavaScript生成的内容方面越来越好。在大多数情况下,这是一件好事。另一方面,JavaScript也被用于专门隐藏搜索引擎中的内容,因为人们认为搜索引擎没有执行JavaScript。这可能不再是这种情况了。但是,有人建议,通过禁止在robots.txt中生成内容的这些特定JavaScript文件,您还会阻止搜索引擎生成和查看隐藏内容 - 如果这是要求。

这项技术是由seomofo于2010年6月就blocking affiliate marketing links提出的。