我需要一个实用程序来批量转换TIFF文件为可索引的PDF文件。该软件需要在Linux上运行,并且必须在命令行中运行。该软件不需要是开源的。我已尝试使用tesseract和hocr2pdf进行转换,但是它们会生成带有乱码文本的PDF(注意:如果您在PDF中“选择所有”文本,则文本只会出现乱码)。我找到了其他实用程序,但它们只能在Windows下运行,或者不能从命令行运行。提前谢谢。
答案 0 :(得分:1)
Mogrify应该能够帮到你:
答案 1 :(得分:1)
答案 2 :(得分:0)
这个答案是倾斜的,只是部分的。如果它不适用于你,请忽略。
可能存在这样的软件,但我不熟悉它。如果您的需求足够强大,您将编写2000行代码来满足它,那么就有了面向Linux的Libpoppler,,它为您提供了编写程序以创建自己的自定义PDF的接口,你想要的方式。不幸的是,Libpoppler虽然有价值,但编码并不是特别令人愉快;并且,不幸的是,如果您对其进行编码,那么您可能会发现自己正在阅读the PDF standard.
的大片内容。如果您确实编写了此类软件,则可以考虑将其作为开源软件发布。
祝你好运。答案 3 :(得分:0)
在尝试了几种工具(包括Abbyy)后,我决定:Vividata。它们具有不错的价格,在Linux下运行,并且没有每年的页面限制。
答案 4 :(得分:0)
我写了一个使用Tesseract 3或Abbyy OCR 11的bash脚本。 它可以批量转换或以目录监控模式运行。
在你的情况下
pmocr.sh --batch --target=PDF /path/to/tiff/files
请在此处查看脚本: https://github.com/deajan/pmOCR