Web收获无法将格式错误的html转换为xml

时间:2011-12-18 15:50:42

标签: java webharvest

我在web harvest(来自java)中使用xquery处理器来解析在<div>元素中包含无效标记的html页面,例如<div 3px="abc">。例外是:

SXXP0003: Error reported by XML parser: Element type "div" must be followed by either
attribute specifications, ">" or "/>".

at org.webharvest.runtime.processors.XQueryProcessor.execute(Unknown Source)

是否有快速清理div预处理的方法?或者针对这个问题的任何解决方法?

0 个答案:

没有答案