我目前正在使用SAX解析一些HTML。 但是,我现在必须解析一个类似这样的文档:
`<OPTION VALUE="123" SELECTED>`
并且因为SELECTED没有设置实际值,所以它会抛出一个错误(格式不正确,令牌无效)。有没有办法解决这个问题,所以我可以继续使用SAX?
我的代码:
SAXParserFactory spf = SAXParserFactory.newInstance();
SAXParser sp = spf.newSAXParser();
XMLReader xr = sp.getXMLReader();
xr.setContentHandler(sch);
InputSource is = new InputSource(Statics.SUBJECT_CODE_URL);
xr.parse(is);
答案 0 :(得分:1)
您不能使用SAX来解析HTML。 HTML不是XML。一个完全有效的HTML文档不是一个有效的XML文档,你无能为力将使XML解析器解析它。
答案 1 :(得分:0)
使用SAX,您可以解析XHTML,但是您无法解析HTML,因为HTML不是格式良好的XML。