答案 0 :(得分:4)
这不是编码问题,而是与文档类型和DTD有关。纯XML仅支持开箱即用的<
,>
,&
,'
和"
。像‘
这样的实体来自HTML实体集,也经常用于其他(专有)DTD。您需要在文件的序言中提供本地DTD子集,预先将这些实体解析为Unicode,或者依赖于修复&#39; MarkLogic的特色。
repair
选项可能是最快的出路,但是这些实体来自哪里以及你想用它们做什么可能值得思考。
以下是xdmp:document-load
的文档,应该描述repair
选项:
http://docs.marklogic.com/xdmp:document-load
HTH!