有人可以向我解释有关Tesseract OCR的培训吗?

时间:2013-06-26 21:35:15

标签: windows-8 ocr tesseract

我正在尝试进行培训,但我甚至不理解如何开始。我想训练读取数字。我的图像来自现实世界,因此阅读过程并没有那么好。

它说我必须有一个带有例子的“.tif”图像...是每个数字的单个图像(在这种情况下)或具有许多不同类型数字的图像(相同的字体,尽管)?

制作盒怎么样?这个命令在这里不起作用。

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

有人可以更好地解释我,至少如何开始?

我看到一些软件可以更快地执行此操作,但我尝试了一个(SunnyPage 1.8)但不是免费的。有人知道这样做的任何免费软件吗?还是一个很好的教程?

使用Tesseract 3,Windows 8(32位)。

2 个答案:

答案 0 :(得分:3)

耐心地遵循培训维基谷歌代码项目网站是很重要的。如果需要多次。它是一个开源库,并且在不断发展。

您必须创建一个包含许多不同类型数字的训练图像(tiff),可能应该包含您希望引擎识别的所有数字。

请考虑使用make框发布确切的错误消息。

我认为Tesseract是最好的免费解决方案。你必须继续工作并寻求社区的帮助。

Cédrichere发表了一篇非常好的文章,解释了Tesseract的培训过程。

答案 1 :(得分:0)

一个好的免费OCR软件是PDF OCR X,也是基于Tesseract的。我试图用1200dpi扫描的德语复制我的笔记,结果值得称道,但并不完美。我发现这个网站 - http://onlineocr.net - 更加准确。如果您没有注册,它允许从大多数图像格式(BMP,PNG,JPEG等)和PDF最大4mb文件大小。它可以将它们输出为Word文件,Excel文件或txt文件。 希望这会有所帮助。