我是一系列看起来像这样的图片
我正在尝试使用Tesseract(特别是pyTesseract)将这些图像OCR文本转换为文本,以便我可以在以后构建图形,而Tesseract 几乎完成这项工作。目前的结果如下:
— Illinois
Supreme Ct.
- Ct. of Appeals
1st Dist.
2nd Dist.
3rd Dist.
4th Dist.
5th Dist.
Trial Ct.
正如您所看到的,子文件夹的指示在双短划线和连字符之间变化,但更大的问题是层次结构丢失。反正有没有pyTesseract,比如尊重边界的空格,或者某种方式可以认识到这是一个带有层次结构的图像?