无论我们上传什么,我都需要帮助才能从图像中读取文本。这里有任何库。我正在使用Tesseract PHP OCR。
但没有想到使用它。我在这里附上我的文件。
Tesseract文件来自此处:https://github.com/thiagoalessio/tesseract-ocr-for-php/tree/master/src 和我的PHP我写了附图。enter image description here
答案 0 :(得分:0)
这是我用来在ubuntu 16.04上为pdf做ocr的一个小脚本
$inputPDF = 'path/to /your/file';
$fileToOCR = "ocr.tiff";
exec("convert -density 300 $inputPDF -depth 8 -strip -background white -alpha off $fileToOCR");
$outputOCR = "ocr";
exec("tesseract $fileToOCR -l deu+eng $outputOCR hocr");
请注意,您需要安装tesseract-ocr和imagemagick sudo apt-get install tesseract-ocr imagemagick
您还需要要使用的语言包sudo apt-get install tesseract-ocr-[lang]
exec("convert ...");
准备文件以获得更好的结果
exec("tesseract ... ");
执行实际的ocr,其中deu + eng是文本中的语言,而hocr是输出格式(带有附加信息的xml,其中找到了文本)
希望有所帮助
答案 1 :(得分:0)
您可以使用此API(它是免费的):
<?php
$url = 'http://server.com/image.png';
$data = json_decode(file_get_contents('http://api.rest7.com/v1/ocr.php?url=' . $url . '&format=txt'));
if (@$data->success !== 1)
{
die('Failed');
}
$txt = file_get_contents($data->file);
file_put_contents('text.txt', $txt);
您只需将$url
替换为图片文件的网址,输出将另存为text.txt
。
答案 2 :(得分:-1)