应用错误收集

时间：2018-12-21 19:59:58

标签： pdf pdf-generation qpdf

我正在使用qpdf检查是否通过使用以下命令为pdf正确设置（编码）了编码和toUnicode，并在文本文件中查找“ ToUnicode”字样。目的是确保可以在pdf查看器（例如Adobe Acrobat Reader，pdf.js，pdfium等）上正确解码文件中的连字。

我想知道这是否正确吗？推荐什么？

qpdf --stream-data=uncompress input.pdf output.txt

谢谢。

答案 0 :(得分：0)

这是一项艰巨的任务。

您的文档可以包含多种字体，某些字体带有ToUnicode cmap，而有些字体没有，则所有字体都有效。

然后，对于包含ToUnicode cmap的字体，您必须检查与该字体一起使用的所有字符ID是否也存在于ToUnicode cmap中。

最后一步是检查每个字符id是否都映射到正确的字符（连字符）。这是不可能自动完成的，因为您不知道某个ID代表什么字符。例如，当文字显示在页面上时，字形“ A”由字符id 1表示。但是在ToUnicode cmap中，字符id 1被映射为字符'B'。这是一个逻辑错误，无法自动验证。