首先,我的最终目标是使用tesseract处理以下图像: http://ubuntuone.com/72m0ujsL9RhgfMIlugRDWP (我删掉了第二和第三列......)
然而,tesseract在虚线背景方面存在问题。所以我的想法是用OpenCV预处理图像。最好的方法是,如果我可以以某种方式检测每一行,因为我需要通过应用不同的阈值而不是偶数行去除虚线背景。有什么解决方案可以解决我的问题吗?到目前为止,我已经找到了霍夫变换和可能的分割,但结果不是很好(可能是因为错误的参数)...但我不确定,如果这些是可能的方法,我投入的时间最好。 列检测也没问题,因为第二列只包含数字和第三个字符。将这些“知识”传递给tesseract可以进一步提高其检测率。
如果有人能给我一些提示如何解决这个问题以及哪些OpenCV功能最好用于哪些参数,我真的很感激。一些能让我对不同步骤有一个公平想法的片段也会有所帮助。
提前感谢!!!
亲切的问候。
答案 0 :(得分:0)
我建议你使用侵蚀之类的东西,因为与字母的宽度相比,这些点看起来相当小。
或者我会使用适当的阈值进行Canny边缘检测,这样我就会丢弃相当短而细的点边缘。
希望这有帮助,玩得开心!