从图像文件中提取数据(文本和图像)

时间:2019-02-08 10:45:53

标签: php laravel tesseract data-extraction pdf-reader

我有一个PDF文件(内容作为PDF中的图像),我需要从PDF文件中提取文本和图像。我已经在Laravel中尝试过PDF转换器库,但是没有一个起作用。因此,我已使用Imagick将PDF转换为图像,然后使用TesseractOCR从Image(jpg格式)提取文本,现在我还需要提取图像。是否有可能从Image中提取文本和图像。

我的PDF如下所示

enter image description here

我已经在laravel中尝试过TesseractOCR库,现在我可以成功提取文本了。

$file = public_path().'/images/S29A57P1-4.jpg';
echo (new TesseractOCR($file))
        ->lang('eng')
        ->run();

我想从PDF或图像中提取文本和图像。

0 个答案:

没有答案