Tesseract hOCR:如何检测倒置?

时间:2014-01-03 19:16:21

标签: image rotation ocr tesseract hocr

(我将在这里回答我自己的一般问题)

在Tesseract OCR中,如何检测上下颠倒的图像? 使用Tesseract的人可能会,也可能不会知道Tesseract 可以读取颠倒呈现的图像。
然而,问题在于,如果您使用hOCR输出,您不知道它是颠倒的,正如文档中所说的那样。

那么如何检测呢?

1 个答案:

答案 0 :(得分:-1)

经过仔细检查后,我注意到它确实不是直接在hOCR输出中,我希望ocr_page div中的某些属性表示方向。

我所知道的是,您可以读取每页ocr_carea页的边界框的y值:

  • 如果值从低到高,则页面处于正常方向。
  • 如果值从高到低,则页面会颠倒。

这可能适用于旋转90度和270度,也可能不适用,但很可能你会看到类似的x值模式。