我正在尝试通过上传时查看内容来验证用户上传的文档,我正在使用Tesseract进行OCR,使用bitap算法进行模糊搜索以检查关键字是否退出,一切都可以正常处理简单文档(包含的文档)简单的文字),但是当我有一些像这样的文件时:(我只保留了相关部分) docs
文字未被阅读,我只得到一些奇怪的字符......
但删除了文字下的要点后:
我得到了确切的文字,所以我的问题是,是否可以进行一些图像预处理以删除所有非字母(或字母数字)内容?或者还有其他解决方案吗?我确信这是因为从同一个文档中提取内容没有任何问题,但我是图像处理的新手,我在其他编程语言中找到了一些答案,解释了如何要使用OpenCV做到这一点,欢迎任何帮助/建议来解决这个问题或获得更好的OCR结果。 谢谢