Jsoup从HTML内容中提取Href

时间:2019-07-05 18:35:28

标签: java jsoup screen-scraping

我的问题是我尝试使用JSoup从此站点获取Hrefs

https://www.amazon.de/s?k=kissen&__mk_de_DE=%C3%85M%C3%85%C5%BD%C3%95%C3%91&ref=nb_sb_noss_2

但不起作用。

我试图像这样从Href中选择班级

Elements elements = documentMainSite.select(".a-link-normal");

之后,我尝试使用以下代码提取Href。

for (Element element : elements) {
  String href = element.attributes().get("href");
}

但是不幸的是它什么也没给我...

有人可以告诉我我的错误在哪里吗?


我不只是连接到该网站。我还使用

提取了hrefs,将其保存在字符串中
String href = element.attributes().get("href");

之后,我将打印href字符串,但为空。

另一方面,代码与另一个CSS选择器一起使用。因此它本身与代码无关。它只是CSS选择器(.a-link-normal)可能是错误的。

1 个答案:

答案 0 :(得分:0)

仅通过Jsoup连接到url就不会获得任何好处。

Document document = Jsoup.connect(yourUrl).get();
String bodyText = document.getElementsByTag("body").get(0).text();

这是正文的翻译,是我从上面的代码中获得的。

  

在下面输入字符我们希望您的理解并希望   确保您不是机器人。为了获得最佳效果,请使用浏览器   接受cookie。输入您在图像中看到的字符:输入   字符尝试其他图像继续购物条款和条件   隐私政策©1996-2015,Amazon.com,Inc.或其附属公司

例如,您需要绕过验证码或通过Selenium模拟浏览器。