Question

我有一个GWT（Google Web Toolkit）应用程序，并且在 war / my_project 目录下生成了一些文件（cache.js，nocache.js ...）。我正在使用robots.txt文件，我已经放了：

User-agent: *
Disallow: /my_project/

那好吗？我的意思是，我想确保它不会阻止机器人抓取我的网站的网址...我只是怀疑，即使我已经通过网站管理员工具尝试并且我确认机器人可以抓取我的网址。

我的问题是，我问自己，机器人如何抓取我的网址，如果它无法访问生成这些网址的源代码（应用程序本身，那么* cache.js和* nocache.js ）？

谢谢你，阿克塞尔

Answer 1

据我所知，抓取工具仍然不使用javascript。他们看不到你的GWT。如果他们抓取* .js，他们只会索引源代码，而不是你可能不想要的结果。

为了使您的网站具有良好的可索引性，即使关闭了javascript，您也必须确保页面内容可见。这可能非常烦人，并且在某些情况下涉及需要使用php或某些服务器端系统来“烧毁”您的页面副本。

如果您使用HistoryTokens，您可能还需要考虑使用“＃！” （hashbang）和“_escape_fragments_”，以便正确链接抓取工具可以看到的静态/生成的网页，以及您希望它们链接的动态gwt等价物。

不幸的是，这只是一个很大的兔子洞。