Ghostscript生成的pdf内容无法复制

时间:2016-09-28 14:25:02

标签: pdf pdf-generation pdfbox ghostscript postscript

我正在尝试转换包含一些telugu字体(即Vani Bold)的postscript文件。将文件转换为pdf后,我无法从生成的pdf文件中复制文本。当我在centos文档查看器中看到pdf文件的属性时,它显示如下enter image description here

我使用下面的命令将postscript文件转换为pdf

bin / gs -dBATCH -sDEVICE = pdfwrite -sNOPAUSE -dquite -sOutputFile = / home / cloudera / Desktop / PrintTest / telugu.pdf /home/cloudera/Desktop/PrintTest/VirtualPrinter_27_09_2016_19_11_41_691.ps

我也试过了ghostscript 9.19和9.20,但没有改变。

以下是我的postscript文件的链接,我试图将其转换为pdf。 click here for postscript file

自从10天以来,我一直在努力解决这个问题。请为此提供一些解决方案。

1 个答案:

答案 0 :(得分:0)

我可以告诉你为什么你无法复制&粘贴文本,但我不确定我能否提供可接受的解决方案。

首先,并非所有pdf查看器都可以处理unicode字符(例如,xpdf无法处理,mudpfqpdfview可以忽略它们。< / p>

其次,为了能够将字体字形转换为unicode字符,PDF文件中的字体对象必须包含/ToUnicode属性。如果您在解压缩后查看生成的PDF(mutool clean -d),您可以看到对象8 0中的 Vani 字体没有它,而<对象10 0中的em> Arial 字体和对象12 0中的 Calibri 字体。

很有可能 Vani 字体缺少此unicode翻译信息,您需要添加此信息(例如使用fontforge),或选择具有此信息的其他字体。

相关问题: