Question

使用Jsoup库，我试图从HTML字符串中获取内容（仅文本）。有两种方法可以给我内容：

Jsoup.parse(htmlString).body().text()
Jsoup.parse(htmlString).text()

我知道第一种方法只返回正文的文本。第二种方法返回什么？哪一个更适合我的使用？

注意：根据文档，文本方法用于设置文档正文的文本

Answer 1

每个元素都有方法text()

public java.lang.String text（）获取此元素的组合文本和它的所有孩子。空格被标准化和修剪。

除了node.nodeName()标记（<title>和{{1>外，所有可包含文本节点（<script>返回#text）的元素均为supposed to be part of the body。标签具有节点名称为#data的子节点。

因此有效页面会返回<style>和document.body().text()的相同文字，只要标题标记未在头部设置，否则document.text()将另外包含标题文字

Answer 2

第二行包括整个HTML文档中的文本，包括头部，标题和正文，而第一行只包含正文中的文本。