我正在搜索一个可以用字体参数化的OCR库, 因为我一直都知道这一点,我相信这样的识别结果会好很多。
有人知道吗?
答案 0 :(得分:2)
结帐OCRopus。它是开源的,由谷歌赞助:)我不确定它是否允许选择特定的字体,但无论如何它似乎都会产生良好的效果。
答案 1 :(得分:2)
大多数OCR引擎都能很好地处理这种情况。实际上,如果在页面上只能识别一种字体,OCR引擎就不会那么混乱。根据我的经验,这是奇怪但真实的。
如果一个OCR引擎可以首先读取你的字体,那么我就会使用它而不用担心它。有更好的选择来提高认可度。
许多OCR引擎允许您设置一些识别参数,以帮助提高识别,如固定宽度或比例,衬线或非衬线,机器或手印。您还可以选择一个字符子集,如大写或数字,以显着改善结果。即如果你只有数字字符,那么0(零)字符永远不会与'O'或'o'或'Ø'混淆。您会发现这些提示比选择OCR的确切字体类型更有效。
其他引擎将允许您训练您的OCR引擎处理新字体,如果您有一个奇怪的字体,这将有很大帮助。
如果您的图像质量良好且字体清晰且尺寸合适,我建议您使用Google和OCROpus的Tesseract OCR作为suggested by Michael Mior。它是免费的,并且在干净和清晰的文本上运行良好。如果文本有点困难,那么肯定有更好的OCR引擎,如ABBYY,Prime Recognition,Omnipage和许多其他引擎,虽然它们会花钱。
答案 2 :(得分:0)
它显然只是Windows,并不主要专注于OCR,但Simba的OCR具有需要了解所使用字体的方法。