使用Saxon HE(网络版)wget和batch,我试图转换我通过wget下载的页面。
每当在页面上调用命令时,我都会收到以下错误:
SXXP0003:XML解析器报告错误:实体名称必须 立即按照'&'在实体参考中。
它与一个非常尴尬的javescript系列中的一条线有关。但是,我无法控制我想要转换的页面,因此我无法对此方面的错误采取任何措施。
有没有办法告诉Saxon跳过这些错误?我不介意它是否会删除整个标记,因为我不想从javascript元素中读取任何数据。
提前非常感谢!
答案 0 :(得分:1)
正如错误消息所示,这是由底层XML解析器报告的一个错误,Saxon使用它来解析您提供给它的文档的标记。如果这不是格式良好的XML,那么任何XML解析器都会拒绝它。如果您将RankSoup从the choice to use an HTML tag soup parser like TagSoup放在类路径上,Saxon会为您http://home.ccil.org/~cowan/tagsoup/提供-x:org.ccil.cowan.tagsoup.Parser
选项。