我正在处理OCR项目,但我不知道如何在将扫描文档图像传递给tesserract之前从其中删除图形。 我想删除图形的一些扫描文档如下:
http://www.mediafire.com/view/hvmpty2z3cw3vao/IMG_0087.JPG
http://www.mediafire.com/view/1sgy5s2aaj2o8y3/IMG_0086.JPG
任何建议都非常感谢。非常感谢。
答案 0 :(得分:1)
由于文本区域通常是稀疏的并且彼此不连接,因此您可以考虑对原始图像进行sobel边缘检测,并检测具有某个阈值的最大连接区域以检测图像区域。
同时,由于图像是矩形区域,另一种方法是使用霍夫平移来检测直线以构成具有4条线的矩形。如果你这样做,建议你先缩放图像以降低计算复杂度。
答案 1 :(得分:1)
您可以先使用AForge.Net中提供的算法检测文本区域。请参阅HorizontalRunLengthSmoothing和VerticalRunLengthSmoothing。算法不是很复杂,您可以使用自己喜欢的图像处理库轻松实现它。唯一的限制是大致了解图像中字符的大小。