命令行软件将TIFF批量转换为可索引的PDF

时间:2012-05-29 14:58:47

标签: pdf indexing ocr tiff document-conversion

我需要一个实用程序来批量转换TIFF文件为可索引的PDF文件。该软件需要在Linux上运行,并且必须在命令行中运行。该软件不需要是开源的。我已尝试使用tesseract和hocr2pdf进行转换,但是它们会生成带有乱码文本的PDF(注意:如果您在PDF中“选择所有”文本,则文本只会出现乱码)。我找到了其他实用程序,但它们只能在Windows下运行,或者不能从命令行运行。提前谢谢。

5 个答案:

答案 0 :(得分:1)

Mogrify应该能够帮到你:

http://linux.die.net/man/1/mogrify

答案 1 :(得分:1)

这正是您所寻找的:

http://ocr4linux.com/en:start

适用于Linux的命令行OCR工具,基于ABBYY的市场OCR。 (免责声明:我为ABBYY工作)

答案 2 :(得分:0)

这个答案是倾斜的,只是部分的。如果它不适用于你,请忽略。

可能存在这样的软件,但我不熟悉它。如果您的需求足够强大,您将编写2000行代码来满足它,那么就有了面向Linux的Libpoppler,,它为您提供了编写程序以创建自己的自定义PDF的接口,你想要的方式。不幸的是,Libpoppler虽然有价值,但编码并不是特别令人愉快;并且,不幸的是,如果您对其进行编码,那么您可能会发现自己正在阅读the PDF standard.

的大片内容。

如果您确实编写了此类软件,则可以考虑将其作为开源软件发布。

祝你好运。

答案 3 :(得分:0)

在尝试了几种工具(包括Abbyy)后,我决定:Vividata。它们具有不错的价格,在Linux下运行,并且没有每年的页面限制。

答案 4 :(得分:0)

我写了一个使用Tesseract 3或Abbyy OCR 11的bash脚本。 它可以批量转换或以目录监控模式运行。

在你的情况下

pmocr.sh --batch --target=PDF /path/to/tiff/files

请在此处查看脚本: https://github.com/deajan/pmOCR