使用PHP Imagick / Tesseract将OCR多页PDF作为多页TIFF

时间:2016-02-09 16:23:17

标签: php tesseract tiff imagick

我使用PHP / Imagick将多页PDF转换为TIFF,因此可以使用Tesseract OCR进行扫描。它可以正确转换为多页TIFF。 (虽然,只有6页长,但1.2GB!)

我的代码是:

$imagick = new Imagick();
$imagick->setResolution(600,600);
$imagick->readImage(storage_path('app/ocr/'.$fileid.".pdf"));
$imagick->setImageFormat('tiff');
$imagick->setImageDepth(8); //Required for Tesseract
$imagick->writeImage(storage_path('app/ocrtemp/'.$fileid.'.tiff'));

$tesseract = new Tesseract();
$text = $tesseract->recognize(storage_path('app/ocrtemp/'.$fileid.'.tiff'));

OCR运行良好,并返回TIFF最后一页的OCR文本。但是,只有最后一页。如何让Tesseract为我扫描多页TIFF?

我能做什么的想法?

我理解Imagick应该正确地做到这一点,但我认为它还有一个功能,它可以将图像粘在一起 - 也许我应该这样做,只需创建一个非常长的JPG或东西和OCR那个?

非常感谢,

萨姆

0 个答案:

没有答案