使用LibreOffice将.docx导出为PDF时,Unicode映射错误

时间:2017-04-04 04:03:32

标签: pdf libreoffice

使用 LibreOffice 将.docx文件转换为PDF / A-1a文件时,创建的文件不符合PDF / A-1a标准。

当我尝试使用 Adob​​e Acrobat 中的Preflight验证文件时,出现以下错误:

Text cannot be mapped to unicode (154 matches on 2 pages)

当我在 Preview.app 中复制PDF中的文字时,所有重音字符都会丢失或搞乱。

根据我的研究,我了解 LibreOffice 没有为重音字符正确构建/ToUnicode映射,因为这些字符是为多个字形和 LibreOffice 构建的只是处理第一个字形。参考:Can't copy text from PDF exported from OOo

有解决方法吗?如何在Linux上以编程方式将.docx转换为有效的PDF / A?

这里的信息是我用来转换文件的命令:

unoconv -f pdf -eSelectPdfVersion=1 source-file.docx

此其他命令未按预期提供符合PDF / A的文件,但它具有相同的Unicode映射问题:

libreoffice --headless --convert-to pdf source-file.docx

1 个答案:

答案 0 :(得分:0)

我正在使用的LibreOffice 5.2.3.3存在问题。 LibreOffice 5.1.4.2和5.1.6.2中没有这个问题。

因此降级到5.1.6.2解决了我的问题。

我在现有错误报告中添加了更多信息。