Question

我是一系列看起来像这样的图片

raw image

我正在尝试使用Tesseract（特别是pyTesseract）将这些图像OCR文本转换为文本，以便我可以在以后构建图形，而Tesseract 几乎完成这项工作。目前的结果如下：

— Illinois
Supreme Ct.
- Ct. of Appeals
1st Dist.
2nd Dist.
3rd Dist.
4th Dist.
5th Dist.
Trial Ct.

正如您所看到的，子文件夹的指示在双短划线和连字符之间变化，但更大的问题是层次结构丢失。反正有没有pyTesseract，比如尊重边界的空格，或者某种方式可以认识到这是一个带有层次结构的图像？

Answer 1

Tesseract可以返回bounding box of each word。你能用x值来计算层次结构吗？

（使用ocr.space）

快速创建叠加图像