Tesseract-将单词的多个图像格式化为OCR的一个图像的最佳方法

时间:2019-04-02 23:42:42

标签: python ocr tesseract python-tesseract

我有一系列图像,每个图像包含一个单词。我不想在所有图像上分别运行pytesseract OCR(效果很好),而是希望将图像编译成一个大图像,然后在该图像上运行pytesseract OCR(以降低运行时间)。

格式化图像以获得最佳结果的最佳方法是什么? (即:它们是否应水平,垂直,混杂等排列)

还有,最佳的页面细分模式是什么?

我尝试过水平连接图像,然后使用PSM 7(将图像作为单行文本进行处理),但是,这样做的效果不如使用PSM 8在每个单词图像上运行pytesseract OCR(处理图片作为一个单词)。

1 个答案:

答案 0 :(得分:1)

pytesseract正在包装tesseract可执行文件,因此它wrote each image to disk以及read output from disk也是如此。 tesseract可执行文件的每次启动都会导致api初始化(例如,从磁盘读取受训数据)。

如果您要对较大的文本/图像进行OCR,这不是一个大问题,但是如果您有大量的短文本图像(例如单词),则会浪费时间/性能。 考虑通过cffi或ctype在python中使用tesseract C-API。参见recent example in tesseract user forum