标签: python opencv ocr data-extraction
使用camelot和tabula从数字PDF提取表数据非常简单。但是,该解决方案不适用于文档页面的扫描图像,特别是当表格没有边框和内部网格时。我一直在尝试使用OpenCV生成垂直和水平线。但是,由于扫描的图像将具有微小的旋转角度,因此很难进行该方法。
camelot
tabula
OpenCV
我们如何利用OpenCV为包含表数据(以及文本段落)的扫描文档页面生成网格(水平和垂直线)和边框?如果可行,如何使扫描图像的旋转角度无效?