我想对打印文档进行文本分割。我已经将文档分割为字符分割但是当我遇到一些感人的角色时我失败了。我想仅使用Tesseract OCR来分割单词。我知道Tesseract可以完成这项任务,但我不知道如何在不挖掘tesseract的内部代码的情况下访问它。谁能给我一些建议?如果有可能,我需要用Python。
答案 0 :(得分:1)
如果您可以调用TessBaseAPIGetComponentImages
API方法,则可以检索各种pageIteratorLevel
级别(符号/字符,字,行等)的细分,而无需在图像上执行实际的OCR。