使GWT(Ajax)URL可抓取/可索引的正确方法

时间:2014-12-20 16:43:18

标签: java ajax search gwt indexing

我有一个应用程序,我需要搜索引擎抓取工具才能索引。 我并不需要将整个应用程序编入索引,只需要像http://examplegwtapp.com/xyz这样的特定网址(或网址格式),其中xyz是一个哈希码,类似于那些网址缩短器。

我的应用是这样的:

当访问该URL时,servlet会将请求转发给通过此片段的GWT应用程序:app.html#View?hash=xyz

所以View页面完全是动态的。

问题是什么是使搜索引擎对此特定动态生成的URL进行索引或抓取的正确方法?

1 个答案:

答案 0 :(得分:1)

我会调查Making AJAX Applications CrawlableA proposal for making AJAX crawlable

简而言之,这些是您应该考虑的步骤:

  1. Crawlers从漂亮的网址映射到丑陋的网址。即来自 http://examplegwtapp.com/app.html#View?hash=xyzhttp://examplegwtapp.com/app.html?_escaped_fragment_=hash=xyz
  2. 抓取工具请求丑陋的网址
  3. 服务器从丑陋的网址映射到漂亮的网址。您可以通过在apache级别识别任何_escaped_fragment_请求并将其重定向到某个服务器控制器来处理爬虫调用来执行此操作。即检查Apache rewrite condition for ajax crawling
  4. 服务器调用无头浏览器(HtmlUnit或者只是代码的一小部分是js,只需用你的服务器生成静态html 码。即HtmlUnit Generate Page for GWT App
  5. 无头浏览器响应返回给抓取工具。