仅解析html正文外部文本

时间:2018-05-16 08:37:14

标签: java jsoup html-parsing

我使用JSoup来解析HTML。 我怎么能得到正文? 我的意思是我只想要外文而不包含其他标签的文字。

(音乐使我们雄辩地思考。)

<html>
    <body>
        <p class=\"mm3h\">ဂီတကဆွဲဆောင်အားကောင်းတဲ့ကျွန်တော်တို့ကိုဖြစ်စေတယ်လို့ထင်တယ်။</p> 
        Music causes us to think eloquently.
        <a class=\"\" href=\"\" aria-label=\"--Ralph Waldo Emerson (1 item)\">--Ralph Waldo Emerson</a>
    </body>
<html>

2 个答案:

答案 0 :(得分:4)

我知道问题已经得到解答,答案被标记为已接受的答案,但我认为还有另一种方式可以得到所要求的答案:

JSoup提供ownText()方法。通过这种方式,您可以获得元素的直接子元素的所有文本节点。不会返回子元素及其文本节点。

Document doc = Jsoup.parse("<body> text <p> not included </p> included </body>");
Element body = doc.body();
String ownText = body.ownText();

答案 1 :(得分:3)

Document doc = Jsoup.parse("<body> your content </body>");
String body = doc.body().textNodes().get(1).text();