使用OCR检测子弹点层次结构/级别

时间:2017-04-27 02:10:20

标签: python ocr tesseract python-tesseract

我是一系列看起来像这样的图片

raw image

我正在尝试使用Tesseract(特别是pyTesseract)将这些图像OCR文本转换为文本,以便我可以在以后构建图形,而Tesseract 几乎完成这项工作。目前的结果如下:

— Illinois
Supreme Ct.
- Ct. of Appeals
1st Dist.
2nd Dist.
3rd Dist.
4th Dist.
5th Dist.
Trial Ct.

正如您所看到的,子文件夹的指示在双短划线和连字符之间变化,但更大的问题是层次结构丢失。反正有没有pyTesseract,比如尊重边界的空格,或者某种方式可以认识到这是一个带有层次结构的图像?

1 个答案:

答案 0 :(得分:1)

Tesseract可以返回bounding box of each word。你能用x值来计算层次结构吗?

enter image description here

(使用ocr.space

快速创建叠加图像