应用错误收集

我想了解HtmlCleaner在清理原始html以生成有效的xml输出时如何处理Iframe。 iframe页面的一个示例是this ebay product page。

当我为此页面打印HtmlCleaner的输出时，我发现一些iframe标签完好无损而其他标签丢失。其中一个缺少的iframe是id =“d”的iframe。它包含产品描述，其主体已合并到主页面中。

任何人都可以看一下，或者建议一些更好的HTML解析库，它能够优雅地处理iframe。该库应该能够支持XPath评估。