Question

使用Jsoup我试图找到错误的html结构，如：

<body><p><h1>some text</h1></p></body>

我首先选择标题标记，然后使用headingElement.parent()获取此h1标记的父级。但我不是p作为其父级，而是body。有谁知道为什么？

Answer 1

JSoup在解析HTML时，就像任何好的HTML解析器一样，已经应用了一条规则，即<h1>标记会自动关闭任何打开的<p>元素，因此<p>并且<h1>已经是DOM中<body>元素的兄弟姐妹。