我在web harvest(来自java)中使用xquery处理器来解析在<div>
元素中包含无效标记的html页面,例如<div 3px="abc">
。例外是:
SXXP0003: Error reported by XML parser: Element type "div" must be followed by either
attribute specifications, ">" or "/>".
at org.webharvest.runtime.processors.XQueryProcessor.execute(Unknown Source)
是否有快速清理div预处理的方法?或者针对这个问题的任何解决方法?