java - 通过预处理改进Tesseract：从图像中删除非字母（或字母数字）字符

我正在尝试通过上传时查看内容来验证用户上传的文档，我正在使用Tesseract进行OCR，使用bitap算法进行模糊搜索以检查关键字是否退出，一切都可以正常处理简单文档（包含的文档）简单的文字），但是当我有一些像这样的文件时:(我只保留了相关部分） docs

文字未被阅读，我只得到一些奇怪的字符......

但删除了文字下的要点后：

我得到了确切的文字，所以我的问题是，是否可以进行一些图像预处理以删除所有非字母（或字母数字）内容？或者还有其他解决方案吗？我确信这是因为从同一个文档中提取内容没有任何问题，但我是图像处理的新手，我在其他编程语言中找到了一些答案，解释了如何要使用OpenCV做到这一点，欢迎任何帮助/建议来解决这个问题或获得更好的OCR结果。谢谢

通过预处理改进Tesseract：从图像中删除非字母（或字母数字）字符

0 个答案: