HtmlCleaner如何处理网页中的Iframe

时间:2011-08-04 10:30:30

标签: java htmlcleaner

我想了解HtmlCleaner在清理原始html以生成有效的xml输出时如何处理Iframe。 iframe页面的一个示例是this ebay product page

当我为此页面打印HtmlCleaner的输出时,我发现一些iframe标签完好无损而其他标签丢失。其中一个缺少的iframe是id =“d”的iframe。它包含产品描述,其主体已合并到主页面中。

html清理器的XML输出:http://pastebin.com/03f9gtdC

任何人都可以看一下,或者建议一些更好的HTML解析库,它能够优雅地处理iframe。该库应该能够支持XPath评估。

0 个答案:

没有答案