如何使用Jsoup从谷歌新闻搜索中获取所有标题

时间:2016-06-12 21:10:53

标签: html jsoup

public static void main(String[] args) throws IOException {
    Document doc = Jsoup.connect("https://www.google.com/search?q=tesla&oq=tesla&aqs=chrome.0.69i59l3j0l3.494j0j9&sourceid=chrome&ie=UTF-8#q=tesla&tbm=nws").userAgent("Mozilla").get();

    Elements links = doc.select("div[class=_cnc]");
    for (Element link : links) {
        Elements titles = link.select("h3.r_U6c");
        String title = titles.text();
        System.out.println(title);
        System.out.println("Headline: " + link.text());
        System.out.println("Link: " + link.attr("data-href"));  
    }
      }}

这是HTMl布局。我想提取每个链接的标题。我只是不确定如何格式化我的代码的CSS选择器部分。我试图通过一些旧线程查看,但无法获得任何工作。我只是在寻找标题的文字而不是实际的链接。打印链接语句仅用于某些我无法运行的测试。

谢谢你们 Picture of HTML

1 个答案:

答案 0 :(得分:0)

您尝试获取的页面加载了Javascript。 Jsoup不处理Javascript脚本。

而是使用某些工具,例如Seleniumui4j