尝试检索文章的文字。我想选择
中的所有文字<p>... </p>
我能够做到这一点。
但我只想从文章正文中检索文本,而不是整个页面
Document article = Jsoup.connect("html doc").get();
Elements paragraphs = article.select("p");
上面的代码从页面获取整个文本。我只想要
之间的文字<article itemprop= "articleBody">...</article>
对不起,如果这很难理解,我试着制定了 尽我所能的问题。
答案 0 :(得分:1)
Elements#text()
将返回所有合并段落的纯文字内容(有关详细信息,请参阅此处https://jsoup.org/apidocs/org/jsoup/select/Elements.html)
答案 1 :(得分:0)
尝试选择itemprop
属性
for (Element paragraph : doc.select("article[itemprop=articleBody]"))
System.out.println(paragraph.text());
有关更多提示,请参阅CSS Selectors