ImageMagick和Tesseract(PDF至TIFF至PDF)尺寸问题

时间:2018-09-18 14:55:09

标签: imagemagick ocr tesseract

我的公司正在放弃使用名为SimpleIndex的应用程序,该应用程序可以将OCR文件用于扫描图像。我正在测试ImageMagicK / Tesseract OCR(希望能用PHP来完成工作)。最初,我们有一个将多个扫描图像组合在一起的PDF。然后,我使用此命令行使用ImageMagicK将PDF文件转换为TIF。

magick.exe convert -strip -alpha off -density 300 100492.PDF -depth 2 -quality 100 -compress zip 100492.TIF
  • 原始PDF大小为2,573 KB。
  • 在ImageMagicK之后,它会增加4,219 KB。

接下来,我将这个命令用于tesseract以对TIF文件进行OCR并将其输出为PDF。

tesseract 100492.tif 100492 PDF
  • 最终结果是7,208 KB PDF。

  • 这是SimpleIndex文件大小的两倍,是3,589 KB。

我还有其他方法可以减小文件大小吗?

注意:奇怪的是,我测试了另一个TIF文件(相同的原始PDF文件,但在ImageMagicK上将深度从2更改为8,将质量从100更改为默认值92,从而产生了6,466 KB的TIF文件)。在运行tesseract之后,它生成了大小完全相同的PDF ,大​​小为7,208 KB PDF。

0 个答案:

没有答案