如何配置nekohtml解析器以正确关闭锚标签?

时间:2011-10-13 06:01:28

标签: java html html-parsing neko

我正在使用nekohtml解析器来解析我的html代码。有时我使用锚标记时的错误,内容就像这样写了。

  

<a href="http://abc.com"><a href="http://abc.com">abc</a></a>

解析nekohtml之后,我希望内容能够像这样纠正。

  

<a href="http://abc.com"></a><a href="http://abc.com">abc</a>

为此,请帮助配置nekohtml解析。

更新

我尝试使用设置

parser.setFeature(“http://cyberneko.org/html/features/balance-tags”,true);

没用。我没有按照我的预期给出结果。它返回与我给出的相同的html内容

1 个答案:

答案 0 :(得分:0)

需要设置balance-tags功能,指定NekoHTML解析器是否应尝试平衡已解析文档中的标记。

config.setFeature( "http://cyberneko.org/html/features/balance-tags", true );

来自文档:

  • 通过添加缺少的父元素,自动关闭带有可选结束标记的元素以及更正不平衡的内联元素标记,平衡标记可以修复许多常见错误。为了将HTML文档作为XML处理,不应关闭此功能。此功能作为性能增强提供给仅关注特定元素,属性和/或内容的外观的应用程序,而不管文档的格式错误。