OCR-Engine Tesseract:如何在大量文件上自动识别文本

时间:2011-05-28 08:25:05

标签: perl parsing ocr

我有大量要解析的文件。

它们看起来像这些:见例子:

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html

嗯,我想使用Image :: OCR :: Tesseract可能很有趣。我想我用Tesseract(http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod

解析这个问题
use Image::OCR::Tesseract 'get_ocr';

my $image = './hi.jpg';

my $text = get_ocr($image);

这是正确的语法吗?

1 个答案:

答案 0 :(得分:0)

您可以下载并编译最新版本的tesseract。然后,您可以编写一个(shell或Perl)脚本来提供所有文件以进行解析。