Sax - ExpatParser $ ParseException

时间:2012-01-11 21:36:07

标签: java android xml-parsing sax saxparser

我正在制作一个读取XML Internet的Android应用程序。此应用程序使用SAX来解析XML。这是我解析部分的代码:

public LectorSAX(String url){
    try{
        SAXParserFactory spf=SAXParserFactory.newInstance();
        SAXParser sp = spf.newSAXParser();
        DefaultHandler lxmlr=new LibraryXMLReader() ;
        sp.parse(url, lxmlr);

        nodo=((LibraryXMLReader)lxmlr).getNodoActual();

    }catch(ParserConfigurationException e){ 
        System.err.println("Error de parseo en LectorSAX.java: "+e);
    }catch(SAXException e){
        System.err.println("Error de sax LectorSAX.java: " + e);
    } catch (IOException e){
        System.err.println("Error de  io LectorSAX.java: " + e);
    }
}

问题是SAXException发生。异常消息如下:

  

org.apache.harmony.xml.ExpatParser $ ParseException:在第4行,列   42:格式不正确(令牌无效)

但是,如果我将相同的代码放在普通的Java SE应用程序中,则不会发生此异常,并且一切正常。

为什么相同的代码在Java SE应用程序中运行良好,而不是Android?另一方面,如何解决问题?。

感谢您的帮助。

问候。

1 个答案:

答案 0 :(得分:11)

这可能是字符编码问题 如您所见,无效令牌错误指向第4行 在这一行中,您可以找到急性(Meteorología)和波浪号(España)。 XML标头显示 ISO-8859-15 编码值。由于它不如UTF或ISO-8859-1编码常见,因此当SAXParser连接并尝试使用您的系统默认字符集将字节内容转换为字符时,这可能会导致错误。

然后,您需要告诉SAXParser使用哪个字符集。一种方法是将InputSource而不是URL传递给parse方法。举个例子:

SAXParserFactory factory = SAXParserFactory.newInstance();
SAXParser parser = factory.newSAXParser();

InputSource is = new InputSource(url);
is.setEncoding("ISO-8859-15");

DefaultHandler lxmlr=new LibraryXMLReader() ;
sp.parse(is, lxmlr);

修改 似乎Android VM不支持此编码,抛出org.apache.harmony.xml.ExpatParser$ParseException: At line 1, column 0: unknown encoding例外 作为ISO-8859-15,它主要与ISO-8859-1兼容,除了一些特定字符(如您所见here),解决方法是将ISO-8859-15值更改为ISO-8859-1 at setEncoding方法,强制解析器使用不同但兼容的charset编码:

is.setEncoding("ISO-8859-1");

看起来,由于Android不支持声明的字符集,它使用默认值(UTF-8),因此解析器无法使用XML声明来选择适当的编码。