我有一堆扫描的相同布局文件的图像(用可变数据填写的严格表格),我需要用OCR处理。我可以或多或少地处理OCR过程本身(将文本图像转换为文本),但仍然必须应对令人讨厌的事实,即扫描的图像会因不同的旋转程度,不同的缩放比例或两者而失真。
因为我的方法专注于从按像素定义为边界框的各个单元格中读取信息,所以我必须将所有图片转换为"标准"版本,其中每个相应的单元格位于相同的像素位置,否则我的读者会误读"。我的问题是,我怎样才能正常化"扭曲的图像?
我使用Python。
答案 0 :(得分:-2)
今天在高容量表格扫描工作中,我们使用具有自适应模板匹配的商业软件,它可以进行偏斜校正和选择性二值化以准备图像,但随后它会调整每个图像的字段框,而不是在XY位置放置框。 / p>
整体设计会增加图像尺寸。在线搜索的随机图像中可以看到: https://github.com/tesseract-ocr/tesseract/wiki/skew-linedetection.png 注意文档的标题是如何靠近顶部边框的,而在偏斜的图像中它是向下移动的。在这个过于简单的示例中,基于XY的框不会捕获它。
我使用商业软件进行偏移校正和图像预处理。它很便宜但很好。不幸的是,如果数据捕获方法依赖于xy坐标字段匹配,我相信它只会分开。我感觉到你对处理它的沮丧,因此已经创建了适当的工具来处理它。
我经营一个服务局进行此类表格处理。如果您有兴趣,我可以进一步私下分享我们如何处理的方法。然后