jsoup.text()和jsoup.body()之间的区别.text()

时间:2016-09-12 07:04:15

标签: java jsoup

使用Jsoup库,我试图从HTML字符串中获取内容(仅文本)。有两种方法可以给我内容:

Jsoup.parse(htmlString).body().text()
Jsoup.parse(htmlString).text()

我知道第一种方法只返回正文的文本。第二种方法返回什么?哪一个更适合我的使用?

注意:根据文档,文本方法用于设置文档正文的文本

2 个答案:

答案 0 :(得分:4)

每个元素都有方法text()

  

public java.lang.String text()获取此元素的组合文本   和它的所有孩子。空格被标准化和修剪。

除了node.nodeName()标记(<title>和{{1>外,所有可包含文本节点(<script>返回#text)的元素均为supposed to be part of the body。标签具有节点名称为#data的子节点。

因此有效页面会返回<style>document.body().text()的相同文字,只要标题标记未在头部设置,否则document.text()将另外包含标题文字

答案 1 :(得分:1)

第二行包括整个HTML文档中的文本,包括头部,标题和正文,而第一行只包含正文中的文本。