我正在尝试基于为字段的相对位置创建的模板应用OCR从税务文件中提取文本字段。目前,我正在页面上定位一个锚点,然后使用该锚点与模板中的锚点进行比较,以了解字段相对于要解析的文档中的锚点的位置-然后,一旦我知道该位置数据是我可以使用开源OCR读取数据。
在很多情况下,我都可以使用此功能,包括当扫描的文档的边框尺寸与模板的尺寸不同时,或者表单图像倾斜/旋转(使用去偏斜工具)时,效果都很好。
但是,我的问题是,当表单的大小与模板不同时,我无法使其正常工作 –这是一个明显的问题,因为任何扫描的图像都会变化模板上的尺寸有所不同。
我正在使用pyocr,它是Tesseract OCR库的包装。我正在寻找锚点,并获得像素位置以及模板上锚点的宽度和高度。然后,我将其与测试文档上找到的锚点进行比较。问题是,当我根据测试文档锚点和模板锚点之间的大小比例扩展我的所有字段位置时,发现计算中存在一定程度的错误。靠近锚点的字段效果很好,但是我离锚点越远,面积与模板区域的差异就越大。
我猜这是因为我得到的锚点的位置/大小以像素为单位(例如340、540),但是模板锚点和文档锚点之间的比率之差不可避免地是分数(例如3.5555344)。
关于如何处理此问题的任何想法?