使用VTD-XML的带&符号的XML文件的ParserException

时间:2017-06-29 01:07:21

标签: java xml parsing vtd-xml kanji

我试图使用VTD-XML从JMDict项目解析JMDict_e.xml文件。但是,我遇到了解析错误。

出现的唯一错误消息是:

ParserException: com.ximpleware.EntityException: Errors in Entity: Illegal entity char

xml的简短摘录如下:

<entry>
    <ent_seq>1279770</ent_seq>
    <k_ele>
        <keb>構成要素</keb>
    </k_ele>
    <r_ele>
        <reb>こうせいようそ</reb>
    </r_ele>
    <sense>
        <pos>&n;</pos>
        <pos>&adj-no;</pos>
        <field>&comp;</field>
        <gloss>components</gloss>
        <gloss>elements</gloss>
        <gloss>parts</gloss>
    </sense>
</entry>

我相信在pos字段中,非法字符可能是&符号。有没有办法让vtd-xml不将这些&符号视为特殊字符?或者这个问题有不同的方法吗?

1 个答案:

答案 0 :(得分:1)

VTD-XML仅识别这些内置字符实体。在我看来,大多数实体都是无效的。您可能需要在将这些问题提供给解析器之前解决这些问题。