Question

我使用JSoup来解析HTML。我怎么能得到正文？我的意思是我只想要外文而不包含其他标签的文字。

（音乐使我们雄辩地思考。）

<html>
    <body>
        <p class=\"mm3h\">ဂီတကဆွဲဆောင်အားကောင်းတဲ့ကျွန်တော်တို့ကိုဖြစ်စေတယ်လို့ထင်တယ်။</p> 
        Music causes us to think eloquently.
        <a class=\"\" href=\"\" aria-label=\"--Ralph Waldo Emerson (1 item)\">--Ralph Waldo Emerson</a>
    </body>
<html>

Answer 1

我知道问题已经得到解答，答案被标记为已接受的答案，但我认为还有另一种方式可以得到所要求的答案：

JSoup提供ownText()方法。通过这种方式，您可以获得元素的直接子元素的所有文本节点。不会返回子元素及其文本节点。

Document doc = Jsoup.parse("<body> text <p> not included </p> included </body>");
Element body = doc.body();
String ownText = body.ownText();

Answer 2

Document doc = Jsoup.parse("<body> your content </body>");
String body = doc.body().textNodes().get(1).text();

仅解析html正文外部文本

2 个答案: