我在我的Java应用程序中使用Tesseract和JNA包装器Tess4J。
我尝试使用120 DPI的OCR jpeg图像。输出文本质量很差,许多重要单词无法正确识别。我认为主要问题在于输入图像因为120 DPI。我试图重新缩放图像x2。它帮助了一点点。结果仍然是完美的。
目前我正在寻找Tesseract的其他选项,以提高数据的OCR质量。
我的图片包含医疗保健信息,所以我想知道 - 如果我提供自定义词典和医疗词,它是否有助于提高OCR的质量?如果是这样,如果我提供一个包含100k术语的字典 - 它将如何影响Tesseract的性能?
请展示如何使用Tess4J提供此词典。
我还应该尝试哪些其他选择?