Web抓取工具在抓取页面时正在反转查询参数和路径

时间:2016-03-04 21:41:06

标签: angularjs web-crawler prerender

我们有一个基于AngularJS的Web应用程序,目前使用hashbang URL,例如:

www.example.com/#!/item?id=1.  

出于抓取目的,我们使用prerender.io服务来呈现/缓存页面。对于我们的元标记(og,twitter),我们使用一个名为angular-view-head的角度库。直到大约一个月前,这一切都运行得很漂亮,我们的页面都可以按预期搜索和共享。

目前,在我们网站上抓取网页时,抓取工具似乎正在切换查询字符串的路径。例如,

www.somesite.com/#!/item?id=1 

成为

www.somesite.com/?id=1#!/item

正如您可能怀疑的那样,总是返回404。

经过一些检查,这似乎已经在2月7日左右开始了。我们没有使用prerender设置和URL模式进行任何更改。我已经检查了谷歌网站管理员工具,并看到许多404这样的网址。

在过去几天我的研究中没有找到任何类似的问题。

有没有人遇到类似这种设置的东西?关于如何解决这个问题的任何想法?

1 个答案:

答案 0 :(得分:0)

对于发现此问题的任何人,我们都转向HTML5推送状态导航。