JSoup无法从Google购物中删除图片网址

时间:2018-09-17 03:15:30

标签: jsoup

我试图从Google购物搜索结果中获取图片的网址。 我获取图像网址的代码如下:

Element image = el.getElementsByClass("TL92Hc").get(0);
System.out.println(image.attr("src"));

我得到的是src值的弃用版本,如下所示:

data:image/gif;base64,R0lGODlhAQABAIAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==

我知道Google购物生成的图片网址的长度非常非常长(大约12047个字符)。

有没有可以使Jsoup不弃用结果的东西?

1 个答案:

答案 0 :(得分:0)

它像大多数base64字符串一样以==结尾,因此不会被截断。也是有效的1x1 px gif图像(当您将data:image/gif;base64,R0lGODlhAQABAIAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==粘贴到地址栏中时,它将在浏览器中打开。

所以我的猜测是,此页面包含一个类TL92Hc的多个图像,或者该图像仅是一个占位符,并且实际图像是使用JavaScript动态加载的。