Question

我需要一个实用程序来批量转换TIFF文件为可索引的PDF文件。该软件需要在Linux上运行，并且必须在命令行中运行。该软件不需要是开源的。我已尝试使用tesseract和hocr2pdf进行转换，但是它们会生成带有乱码文本的PDF（注意：如果您在PDF中“选择所有”文本，则文本只会出现乱码）。我找到了其他实用程序，但它们只能在Windows下运行，或者不能从命令行运行。提前谢谢。

Answer 1

Mogrify应该能够帮到你：

http://linux.die.net/man/1/mogrify

Answer 2

这正是您所寻找的：

http://ocr4linux.com/en:start

适用于Linux的命令行OCR工具，基于ABBYY的市场OCR。（免责声明：我为ABBYY工作）

Answer 3

这个答案是倾斜的，只是部分的。如果它不适用于你，请忽略。

可能存在这样的软件，但我不熟悉它。如果您的需求足够强大，您将编写2000行代码来满足它，那么就有了面向Linux的Libpoppler,，它为您提供了编写程序以创建自己的自定义PDF的接口，你想要的方式。不幸的是，Libpoppler虽然有价值，但编码并不是特别令人愉快;并且，不幸的是，如果您对其进行编码，那么您可能会发现自己正在阅读the PDF standard.

的大片内容。

如果您确实编写了此类软件，则可以考虑将其作为开源软件发布。

祝你好运。

Answer 4

在尝试了几种工具（包括Abbyy）后，我决定：Vividata。它们具有不错的价格，在Linux下运行，并且没有每年的页面限制。

Answer 5

我写了一个使用Tesseract 3或Abbyy OCR 11的bash脚本。它可以批量转换或以目录监控模式运行。

在你的情况下

pmocr.sh --batch --target=PDF /path/to/tiff/files

请在此处查看脚本： https://github.com/deajan/pmOCR

命令行软件将TIFF批量转换为可索引的PDF

5 个答案: