使用Ghostscript将可搜索的PDF转换为可搜索的PDF / A

时间:2015-08-04 17:36:30

标签: ghostscript searchable pdfa

我正在使用Ghostscript通过命令行将PDF转换为PDF / A:

gs -dPDFA -dBATCH -dNOPAUSE -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile="output.pdf" input.pdf

但输出文件丢失了可搜索的文本属性。

如何获取可搜索的PDF / A文件作为输出?

感谢。

1 个答案:

答案 0 :(得分:0)

您尚未提供要查看的输入文件,也未提及您正在使用的Ghostscript版本。

让我先谈谈这个主题的标准讲座;当您将PDF文件作为输入,并使用Ghostscript的pdfwrite设备生成新的PDF文件时,您'转换','编辑'或'修改'输入文件。

PDF解释器解释PDF文件并生成一系列graphcs基元,并将其提供给图形库。然后处理这些原语,并将它们传递给设备。然后,设备将它们发送到输出文件。在渲染设备(例如TIFF)的情况下,它将操作呈现为位图,当它到达文件末尾时,它将位图写为文件。在pdfwrite的情况下,它将这些原始内容重新组合成一个全新的PDF文件。

因此输出PDF文件与输入PDF文件没有任何共同之处,除了外观。

这种方法有缺点(它确实限制了我们保留输入文件的一些非打印方面),但也有优点;例如,它允许我们改变颜色空间,平整透明度,改变字体编码等。

除此之外,您还选择了创建PDF / A文件。 PDF / A限制了PDF规范的可用功能,并且可能(如果没有看到原始文件就无法分辨),在不改变某些方面的情况下,无法将原始PDF文件表示为PDF / A文件它的。

同样,我没有看到我能说出的原始文件,但可能是你根本无法实现你想要的,或者至少不使用Ghostscript。