使用scala-xml输出XHTML实体引用

时间:2015-02-18 23:05:25

标签: xhtml scala-xml

使用scala.xml.parsing.XhtmlParser我可以解析XHTML文档而不会丢失或必须解析针对DTD的实体引用。但是,XhtmlParser似乎通过内部解析实体来执行此操作,例如,—成为文字“成为文字,等等。

如果您想从XHTML文档中提取Unicode文本,这显然是正确的做法。但是,一旦我导入XHTML并以各种方式对其进行管理,我需要再次输出它,并且我不相信下游系统能够正确处理编码。我想以ASCII安全的方式输出我的结果,从而将转回— es等等。

我尝试在我的scala.xml.Xhtml.toXhtml()对象上使用Elem,但它只产生(足够明智)Unicode String,其中唯一编码的内容为&, XML要求<>

我想我可以接受scala.xml.parsing.XhtmlEntities.entList,逐个字符地输出我的输出字符串,并自己进行替换,这看起来像是一件苦差事。 (另外我无法使用原始列表,因为我必须跳过XML输出中的合法<>&。)

Scala XML库中是否有任何内容可以为我执行此操作,还是手动扫描/替换我的最佳选项?

0 个答案:

没有答案