Java:如何使用jsoup从新闻页面中提取标题?

时间:2016-08-02 19:32:13

标签: java jsoup extract

我想获得第一个标题并打印出来。到目前为止,我已经浏览了HTML并找到了搜索标题的方法。

data-pb-placeholder="Write headline here"

该代码通常位于我想要的任何标题之前。到目前为止,我有......

Document doc = Jsoup.connect("http://www.washingtonpost.com").get();
Element headline = doc.select("headline").first();
System.out.println(headline);

它只输出null。我不确定如何搜索文档并找到头条新闻。

1 个答案:

答案 0 :(得分:1)

看起来标题都在<div class="headline">之下。您可以使用CSS selectors来定位这些并提取其文本节点。

    Document doc = Jsoup.connect("http://www.washingtonpost.com").get();

    for (Element headline : doc.select("div.headline"))
        System.out.println(headline.text());