HTML Agility Pack无法正确更正段落元素

时间:2017-06-19 16:02:15

标签: c# html html-parsing html-agility-pack

我遇到的问题是某些html文件的结构如下:

<p>
    ...
<p>

显然,无论谁写这个都会产生语法错误,实际上是写这个:

<p>
    ...
</p>

我被告知HTML Agility Pack会自动修复此问题,但这似乎并非如此。我也尝试过添加

HtmlNode.ElementsFlags["p"] = HtmlElementFlag.Closed;

但这只是给了我结果:

<p></p>
    ...
<p></p>

并没有真正做我想要的。 HTML Agility Pack中是否存在一些方法,可以在打开新标记之前自动关闭所有p标记?

编辑:对于我正在做的工作,p标签永远不会被嵌套。

1 个答案:

答案 0 :(得分:0)

标记p有一些可能导致类似问题的行为。

从v1.5.0-beta3开始,您可以使用属性P

禁用标记DisableBehavaiorTagP的默认行为

请参阅发行说明:https://github.com/zzzprojects/html-agility-pack/releases/tag/v1.5.0-beta3