使用Jsoup我试图找到错误的html结构,如:
<body><p><h1>some text</h1></p></body>
我首先选择标题标记,然后使用headingElement.parent()
获取此h1
标记的父级。但我不是p
作为其父级,而是body
。
有谁知道为什么?
答案 0 :(得分:0)
JSoup在解析HTML时,就像任何好的HTML解析器一样,已经应用了一条规则,即<h1>
标记会自动关闭任何打开的<p>
元素,因此<p>
并且<h1>
已经是DOM中<body>
元素的兄弟姐妹。