我确实有一些旧的银行对帐单作为扫描,并希望使用谷歌的thesseract引擎来提取文本。除非图像稍微旋转,否则效果很好。我想到了检测虚线以便估计斜率和之后的旋转角度。但是,使参数正确是很棘手的。
如果我可以摆脱大线伪影,我可以在文本字符上使用最小旋转边界框({{1}})。
也许另一种策略适合更好?有任何想法吗 ?
示例图像(删除了一些用于数据保护的字符):
EIDT:我找到了一个似乎有效的解决方案。但是,我仍然想知道是否有更快的解决方案(每张图像大约需要1.5秒)
我使用以下模板从skimage中使用template matching:
cv2.minAreaRect