Tesseract-Job:如何解析图像以便从中获取信息

时间:2011-07-25 04:48:26

标签: html perl parsing ocr tesseract

早餐好。

首先。这是我见过的最令人印象深刻的社区!

好几天我沉思着

的三折工作

一个。越来越 湾解析 C。存储多个页面。

两天前,我认为获取页面将是主要任务。不,这不是这种情况 - 我猜解析器工作将是一项英勇的任务。要解析的每个页面都是png图像。

所以问题是 - 在得到它们之后。如何解析他们!?这似乎是个问题。猜猜那里有一些perl-modules - 这可以帮助你做到这一点......

嗯 - 我认为这项工作只能通过嵌入一些OCR来完成!问题:是否有可用于支持此任务的perl模块:

BTW:查看结果页面。

see an image

BTW;:并且我认为我可以在一定范围内找到所有790个结果页 Id = 0和Id = 100000我想,我可以采用循环方式:

http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage=&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=949&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=10579&InterfaceLanguage=1&Type=Html

我以为我可以去Perl-Way,但我不是很确定: 我试图在相同的URL上使用LWP :: UserAgent [见下文] 使用不同的查询参数,我想知道LWP :: UserAgent是否提供了 我们循环查询参数的方式?我不确定LWP :: UserAgent是否有我们这样做的方法。好吧 - 我有时听说使用Mechanize更容易。但它真的更容易吗??

但是 - 坦率地说; 第一个任务“获取所有页面”并不是很困难 - 如果我们将此任务与解析进行比较...... 如何做到这一点 !?

任何想法 - 建议 -

期待收到你的来信......

1 个答案:

答案 0 :(得分:1)

您不需要Perl模块,只需要system功能。

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

您可能需要预处理图像以帮助Tesseract,例如使用ImageMagick:

system qw[ convert.exe -resize 200%   image.jpg foo.png ];