Question

我使用PHP / Imagick将多页PDF转换为TIFF，因此可以使用Tesseract OCR进行扫描。它可以正确转换为多页TIFF。（虽然，只有6页长，但1.2GB！）

我的代码是：

$imagick = new Imagick();
$imagick->setResolution(600,600);
$imagick->readImage(storage_path('app/ocr/'.$fileid.".pdf"));
$imagick->setImageFormat('tiff');
$imagick->setImageDepth(8); //Required for Tesseract
$imagick->writeImage(storage_path('app/ocrtemp/'.$fileid.'.tiff'));

$tesseract = new Tesseract();
$text = $tesseract->recognize(storage_path('app/ocrtemp/'.$fileid.'.tiff'));

OCR运行良好，并返回TIFF最后一页的OCR文本。但是，只有最后一页。如何让Tesseract为我扫描多页TIFF？

我能做什么的想法？

我理解Imagick应该正确地做到这一点，但我认为它还有一个功能，它可以将图像粘在一起 - 也许我应该这样做，只需创建一个非常长的JPG或东西和OCR那个？

非常感谢，

萨姆

使用PHP Imagick / Tesseract将OCR多页PDF作为多页TIFF

0 个答案: