通过预处理改进Tesseract:从图像中删除非字母(或字母数字)字符

时间:2016-05-22 22:19:40

标签: java image-processing tesseract

我正在尝试通过上传时查看内容来验证用户上传的文档,我正在使用Tesseract进行OCR,使用bitap算法进行模糊搜索以检查关键字是否退出,一切都可以正常处理简单文档(包含的文档)简单的文字),但是当我有一些像这样的文件时:(我只保留了相关部分) docs

文字未被阅读,我只得到一些奇怪的字符......

但删除了文字下的要点后:

我得到了确切的文字,所以我的问题是,是否可以进行一些图像预处理以删除所有非字母(或字母数字)内容?或者还有其他解决方案吗?我确信这是因为enter image description here从同一个文档中提取内容没有任何问题,但我是图像处理的新手,我在其他编程语言中找到了一些答案,解释了如何要使用OpenCV做到这一点,欢迎任何帮助/建议来解决这个问题或获得更好的OCR结果。 谢谢

0 个答案:

没有答案