应用错误收集

有人可以向我解释有关Tesseract OCR的培训吗？

时间：2013-06-26 21:35:15

标签： windows-8 ocr tesseract

我正在尝试进行培训，但我甚至不理解如何开始。我想训练读取数字。我的图像来自现实世界，因此阅读过程并没有那么好。

它说我必须有一个带有例子的“.tif”图像...是每个数字的单个图像（在这种情况下）或具有许多不同类型数字的图像（相同的字体，尽管）？

制作盒怎么样？这个命令在这里不起作用。

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

有人可以更好地解释我，至少如何开始？

我看到一些软件可以更快地执行此操作，但我尝试了一个（SunnyPage 1.8）但不是免费的。有人知道这样做的任何免费软件吗？还是一个很好的教程？

使用Tesseract 3，Windows 8（32位）。

2 个答案:

答案 0 :(得分：3)

耐心地遵循培训维基谷歌代码项目网站是很重要的。如果需要多次。它是一个开源库，并且在不断发展。

您必须创建一个包含许多不同类型数字的训练图像（tiff），可能应该包含您希望引擎识别的所有数字。

请考虑使用make框发布确切的错误消息。

我认为Tesseract是最好的免费解决方案。你必须继续工作并寻求社区的帮助。

Cédrichere发表了一篇非常好的文章，解释了Tesseract的培训过程。

答案 1 :(得分：0)

一个好的免费OCR软件是PDF OCR X，也是基于Tesseract的。我试图用1200dpi扫描的德语复制我的笔记，结果值得称道，但并不完美。我发现这个网站 - http://onlineocr.net - 更加准确。如果您没有注册，它允许从大多数图像格式（BMP，PNG，JPEG等）和PDF最大4mb文件大小。它可以将它们输出为Word文件，Excel文件或txt文件。希望这会有所帮助。