应用错误收集

结帐OCRopus。它是开源的，由谷歌赞助:)我不确定它是否允许选择特定的字体，但无论如何它似乎都会产生良好的效果。

大多数OCR引擎都能很好地处理这种情况。实际上，如果在页面上只能识别一种字体，OCR引擎就不会那么混乱。根据我的经验，这是奇怪但真实的。

如果一个OCR引擎可以首先读取你的字体，那么我就会使用它而不用担心它。有更好的选择来提高认可度。

许多OCR引擎允许您设置一些识别参数，以帮助提高识别，如固定宽度或比例，衬线或非衬线，机器或手印。您还可以选择一个字符子集，如大写或数字，以显着改善结果。即如果你只有数字字符，那么0（零）字符永远不会与'O'或'o'或'Ø'混淆。您会发现这些提示比选择OCR的确切字体类型更有效。

其他引擎将允许您训练您的OCR引擎处理新字体，如果您有一个奇怪的字体，这将有很大帮助。

如果您的图像质量良好且字体清晰且尺寸合适，我建议您使用Google和OCROpus的Tesseract OCR作为suggested by Michael Mior。它是免费的，并且在干净和清晰的文本上运行良好。如果文本有点困难，那么肯定有更好的OCR引擎，如ABBYY，Prime Recognition，Omnipage和许多其他引擎，虽然它们会花钱。

它显然只是Windows，并不主要专注于OCR，但Simba的OCR具有需要了解所使用字体的方法。

请参阅http://docs.villavu.com/simba/scriptref/ocr.html

已知字体的OCR

3 个答案: