我想了解HtmlCleaner在清理原始html以生成有效的xml输出时如何处理Iframe。 iframe页面的一个示例是this ebay product page。
当我为此页面打印HtmlCleaner的输出时,我发现一些iframe标签完好无损而其他标签丢失。其中一个缺少的iframe是id =“d”的iframe。它包含产品描述,其主体已合并到主页面中。
html清理器的XML输出:http://pastebin.com/03f9gtdC
任何人都可以看一下,或者建议一些更好的HTML解析库,它能够优雅地处理iframe。该库应该能够支持XPath评估。