我正在使用Tesseract 3.0.4 API处理图像中包含在网格中的文本。在致电Tesseract之前,我正在使用OpenCV删除网格,以帮助它更好地阅读文本。如果网格是由实线制成的,则网格移除效果很好,并且Tesseract可以准确读取。
当网格线模糊和/或折断时会出现问题,因为如果不能损坏文本本身就无法安全删除它们。
在这种情况下,当我使用页面迭代器检查页面上的每个单词时,边界框通常包含文本,但附近也包含网格的其余部分。
有没有办法告诉Tesseract忽略边界框中的这些线段?线条比文字细得多,并且距文字合理的距离。