Tesseract,Tess4J - 改善低DPI图像上的OCR输出

时间:2017-12-21 18:33:32

标签: ocr tesseract tess4j

我在我的Java应用程序中使用Tesseract和JNA包装器Tess4J。

我尝试使用120 DPI的OCR jpeg图像。输出文本质量很差,许多重要单词无法正确识别。我认为主要问题在于输入图像因为120 DPI。我试图重新缩放图像x2。它帮助了一点点。结果仍然是完美的。

目前我正在寻找Tesseract的其他选项,以提高数据的OCR质量。

我的图片包含医疗保健信息,所以我想知道 - 如果我提供自定义词典和医疗词,它是否有助于提高OCR的质量?如果是这样,如果我提供一个包含100k术语的字典 - 它将如何影响Tesseract的性能?

请展示如何使用Tess4J提供此词典。

我还应该尝试哪些其他选择?

0 个答案:

没有答案