请帮助,我搜索论坛没有运气。 为什么我用tesseract和pytesseract获得不同的输出? 在tesseract中:
tesseract t10.tiff output -1 eng
在python中
ocr_text = pytesseract.image_to_string(image, lang='eng', config='-psm 3').
答案 0 :(得分:0)
如果仔细查看pytesseract.run_tesseract(),您会看到pytesseract运行一个创建另一个.PNG文件的子进程,然后在该图像上运行tesseract子进程。我在创建文件后立即放置了python调试器,并尝试将文件复制到磁盘上以进行检查。原来,文件颜色配置文件与原始图像不同。此外,新图像具有3个颜色通道,而原始图像具有alpha通道。尝试在此新映像上从命令行运行tesseract,您将获得与在原始映像上运行pytesseract相同的结果。Generated PNG vs Original png