Question

我有一组图像，我在其上运行OCR应用程序。此过程将生成具有字符偏移量的XML文件。然后我使用Acrobat 9将图像转换为PDF。现在，我想将XML文件信息作为不可见的文本层添加到PDF中，以实现可搜索的PDF。有一种简单而自由的方式吗？

一些细节：

我不想使用Acrobat的OCR功能;
OCR过程产生一个XML文件，其中包含以下元素：

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新：可能会以不同的方式做我想要的事情。假设已经有一组PDF文件从一组图像生成，并且已经包含OCR文本。是否有可能（可能以编程方式）访问每个页面的图像，处理它（例如，将其转换为单色），并将其保存回PDF文件？如果是，则OCRed文本不会丢失。

[我应该将此更新置于单独的问题中吗？]

Answer 1

关于处理PDF文件而不会丢失隐藏图层的后续问题：我相信Ghostscript能够做到这一点。例如，以下命令应将PDF转换为灰度：

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

Answer 2

如果您只想将现有的pdf转换为灰度，请尝试Imagemagick：

convert foo.pdf -colorspace Gray -compress zip gray.pdf

我认为这不会改变你的pdf中的任何其他属性。