JSoup文档结构问题

时间:2012-02-27 20:58:56

标签: java html jsoup

请尝试以下方法....

String rq = "http://www.musicbrainz.org/ws/2/release/ac1afa8d-1a86-4435-9714-0a5e808e4c83?inc=recordings";<br></br>
Document doc = Jsoup.connect(rq).get();

您可以在浏览器中看到曲目的结构如下......

<track><br></br>
    <position>1</position><br></br>
    <length>249000</length><br></br>
    <recording><br></br>
    <title>Hello</title><br></br>
    <length>249000</length><br></br>
    </recording><br></br>
 </track&gt;<br></br>

但如果您查看文档,它已经重组为......

<track></track><br></br>
<position>1</position><br></br>
<length>249000</length><br></br>
<recording><br></br>
   <title>Hello</title><br></br>
   <length>249000</length><br></br>
</recording><br></br>

知道发生了什么事吗? (使用jsoup-1.6.1.jar)
谢谢!

2 个答案:

答案 0 :(得分:1)

我认为这是因为您要解析的文档是XML而不是HTML。 Jsoup主要是一个HTML解析器。

答案 1 :(得分:0)

您可以使用jsoup来解析XML:

Document doc = Jsoup.parse(xmlString, baseInput, Parser.xmlParser());