(我将在这里回答我自己的一般问题)
在Tesseract OCR中,如何检测上下颠倒的图像?
使用Tesseract的人可能会,也可能不会知道Tesseract 可以读取颠倒呈现的图像。
然而,问题在于,如果您使用hOCR输出,您不知道它是颠倒的,正如文档中所说的那样。
那么如何检测呢?
答案 0 :(得分:-1)
经过仔细检查后,我注意到它确实不是直接在hOCR输出中,我希望ocr_page
div
中的某些属性表示方向。
我所知道的是,您可以读取每页ocr_carea
页的边界框的y值:
这可能适用于旋转90度和270度,也可能不适用,但很可能你会看到类似的x值模式。