我正在使用qpdf检查是否通过使用以下命令为pdf正确设置(编码)了编码和toUnicode,并在文本文件中查找“ ToUnicode”字样。目的是确保可以在pdf查看器(例如Adobe Acrobat Reader,pdf.js,pdfium等)上正确解码文件中的连字。
我想知道这是否正确吗?推荐什么?
qpdf --stream-data=uncompress input.pdf output.txt
谢谢。
答案 0 :(得分:0)
这是一项艰巨的任务。
您的文档可以包含多种字体,某些字体带有ToUnicode cmap,而有些字体没有,则所有字体都有效。
然后,对于包含ToUnicode cmap的字体,您必须检查与该字体一起使用的所有字符ID是否也存在于ToUnicode cmap中。
最后一步是检查每个字符id是否都映射到正确的字符(连字符)。这是不可能自动完成的,因为您不知道某个ID代表什么字符。例如,当文字显示在页面上时,字形“ A”由字符id 1表示。但是在ToUnicode cmap中,字符id 1被映射为字符'B'。这是一个逻辑错误,无法自动验证。