应用错误收集

时间：2019-04-02 23:42:42

标签： python ocr tesseract python-tesseract

我有一系列图像，每个图像包含一个单词。我不想在所有图像上分别运行pytesseract OCR（效果很好），而是希望将图像编译成一个大图像，然后在该图像上运行pytesseract OCR（以降低运行时间）。

格式化图像以获得最佳结果的最佳方法是什么？（即：它们是否应水平，垂直，混杂等排列）

还有，最佳的页面细分模式是什么？

我尝试过水平连接图像，然后使用PSM 7（将图像作为单行文本进行处理），但是，这样做的效果不如使用PSM 8在每个单词图像上运行pytesseract OCR（处理图片作为一个单词）。

答案 0 :(得分：1)

pytesseract正在包装tesseract可执行文件，因此它wrote each image to disk以及read output from disk也是如此。 tesseract可执行文件的每次启动都会导致api初始化（例如，从磁盘读取受训数据）。

如果您要对较大的文本/图像进行OCR，这不是一个大问题，但是如果您有大量的短文本图像（例如单词），则会浪费时间/性能。考虑通过cffi或ctype在python中使用tesseract C-API。参见recent example in tesseract user forum。