我正在尝试使用放置了in this question的示例代码使用ABBYY OCR SDK处理图像,但我无法在下面的屏幕截图中找到特定单词的坐标“OCR”。
我想绘制一个叠加层(黄色矩形覆盖“OCR”字样),有时矩形放置在离实际字远的地方。
答案 0 :(得分:3)
您获得的XML是根据this schema合成的。
对于每个已识别的字符,它将包含charParams
元素的实例,如in the answer you linked to所示。元素将包含页面像素中的坐标 - 相同的XML还包含page
元素:
<page width="..." height="..." resolution="..." originalCoords="...">
存储图像宽度和高度。因此,每个l
元素的r
和charParams
位于相应网页的0..width-1
范围内,t
和b
位于每个charParams
} element在相应页面的范围0..height-1
内。
另外值得一提的是,所有坐标都在像素中 - 它们完全与分辨率无关。这就是为什么每当您尝试突出显示图像上的任何内容时都需要进行缩放 - 图像可能不会像设备软件那样始终显示,但会缩小尺寸,因此您必须将页面坐标映射到缩放上 - 图像坐标并适当加亮。
答案 1 :(得分:2)
您是否检查过原始图像的DPI,并检查文档以确保OCR引擎使用相同的DPI,而不是以点或其他测量系统返回图像。
您在iOS中绘制的矩形可能不是基于像素,而是基于其他测量系统。
您只需要完成整个过程,随时进行测试,并找出问题所在的位置。它很可能是一个统一的缩放,与实际单词的距离与单词距页面左上角的距离成正比。