使用Jsoup库,我试图从HTML字符串中获取内容(仅文本)。有两种方法可以给我内容:
Jsoup.parse(htmlString).body().text()
Jsoup.parse(htmlString).text()
我知道第一种方法只返回正文的文本。第二种方法返回什么?哪一个更适合我的使用?
注意:根据文档,文本方法用于设置文档正文的文本
答案 0 :(得分:4)
每个元素都有方法text()
public java.lang.String text()获取此元素的组合文本 和它的所有孩子。空格被标准化和修剪。
除了node.nodeName()
标记(<title>
和{{1>外,所有可包含文本节点(<script>
返回#text)的元素均为supposed to be part of the body。标签具有节点名称为#data的子节点。
因此有效页面会返回<style>
和document.body().text()
的相同文字,只要标题标记未在头部设置,否则document.text()
将另外包含标题文字
答案 1 :(得分:1)
第二行包括整个HTML文档中的文本,包括头部,标题和正文,而第一行只包含正文中的文本。