Java Jsoup:仅检索文章

时间:2016-08-03 15:08:02

标签: java jsoup extract

尝试检索文章的文字。我想选择

中的所有文字
<p>... </p>

我能够做到这一点。

但我只想从文章正文中检索文本,而不是整个页面

Document article = Jsoup.connect("html doc").get();
Elements paragraphs = article.select("p");

上面的代码从页面获取整个文本。我只想要

之间的文字
<article itemprop= "articleBody">...</article>

对不起,如果这很难理解,我试着制定了 尽我所能的问题。

2 个答案:

答案 0 :(得分:1)

Elements#text()将返回所有合并段落的纯文字内容(有关详细信息,请参阅此处https://jsoup.org/apidocs/org/jsoup/select/Elements.html

答案 1 :(得分:0)

尝试选择itemprop属性

        for (Element paragraph : doc.select("article[itemprop=articleBody]"))
            System.out.println(paragraph.text());

有关更多提示,请参阅CSS Selectors