删除Google附加到搜索结果的查询参数

时间:2013-11-17 17:10:59

标签: java web-crawler

感谢您抽出宝贵时间回答我的问题。

我已经用Java编写了一个连接到google.com的函数,并收集了给出查询后返回的前200个搜索结果。但是,谷歌会在原始网址上附加一些“时髦”参数,因此原文如下:

http://en.wikipedia.org/wiki/World_Chess_Championship_2013

成为:

http://en.wikipedia.org/wiki/World_Chess_Championship_2013&sa=U&ei=EPiIUuSGB5OV7AbB0YCQCA&ved=0CCMQFjAD&usg=AFQjCNEsQZZJUO1CU7cCwBaUDAXP9LSsjQ

现在这不会有问题,因为我可以在遇到“& sa ..”的时候切断字符串。但是,Google会为不同的数据类型添加不同的参数。因此,PDF链接包含一组参数,另一组图像,第三组网站等。

您是否知道我可以以编程方式删除Google附加的参数以获取原始网址的方式?

由于

0 个答案:

没有答案