我使用tesseract从屏幕刮板应用程序中获取OCR文本。 使用的仅字体是Segoe UI 8 CLEARTYPE QUALITY(见下图)。 此时,tesseract做得很差,混合了Z和2,0和o等等。
我试图扩大文字图片(没有改进)。看看eng.traineddata我可以看到tesseract没有使用Segoe UI 8 CLEARTYPE QUALITY进行培训。
问题:如何使用新字体训练tesseract 和指定只应使用该字体?
答案 0 :(得分:1)
请提供您的努力示例。我的目标是帮助您实现目标,而不是为您完成工作。
这是一个非常普遍的问题,许多人已经解决了这个问题,其中一些问题比其他问题更有效率。您可以使用他们创建的工具。
示例
还有许多其他字体,其中一些字体只是字体,并且为此进行了优化。这可能会对您产生更大的影响。例如:
还有其他示例,但是大多数示例都使用图像魔术和其他工具来改善初始输入数据质量,从而使OCR工具发挥最大作用。我个人编写了高效的c#GDI转换,以在对它运行Tesseract之前操纵输入数据。