我正在尝试进行培训,但我甚至不理解如何开始。我想训练读取数字。我的图像来自现实世界,因此阅读过程并没有那么好。
它说我必须有一个带有例子的“.tif”图像...是每个数字的单个图像(在这种情况下)或具有许多不同类型数字的图像(相同的字体,尽管)?
制作盒怎么样?这个命令在这里不起作用。
https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
有人可以更好地解释我,至少如何开始?
我看到一些软件可以更快地执行此操作,但我尝试了一个(SunnyPage 1.8)但不是免费的。有人知道这样做的任何免费软件吗?还是一个很好的教程?
使用Tesseract 3,Windows 8(32位)。
答案 0 :(得分:3)
耐心地遵循培训维基谷歌代码项目网站是很重要的。如果需要多次。它是一个开源库,并且在不断发展。
您必须创建一个包含许多不同类型数字的训练图像(tiff),可能应该包含您希望引擎识别的所有数字。
请考虑使用make框发布确切的错误消息。
我认为Tesseract是最好的免费解决方案。你必须继续工作并寻求社区的帮助。
Cédrichere发表了一篇非常好的文章,解释了Tesseract的培训过程。
答案 1 :(得分:0)
一个好的免费OCR软件是PDF OCR X,也是基于Tesseract的。我试图用1200dpi扫描的德语复制我的笔记,结果值得称道,但并不完美。我发现这个网站 - http://onlineocr.net - 更加准确。如果您没有注册,它允许从大多数图像格式(BMP,PNG,JPEG等)和PDF最大4mb文件大小。它可以将它们输出为Word文件,Excel文件或txt文件。 希望这会有所帮助。