Python OCR Tesseract无法识别单个字符

时间:2017-09-28 06:24:23

标签: python ocr python-tesseract

我有两张TIF图片。第一张图片(a.tif)是:

Single Character Image

和第二张图片(bcd.tif)是

Multiple Character Image

当我使用 “tesseract a.tif a.txt” 时,它不会读取该字符和相同的命令 “tesseract bcd。 tif bcd.txt“ 正在工作。我已经在stackoverflow中看到了一些答案,他们没有给出解决方案如何运行它。如果我们需要添加任何参数那些是什么?

2 个答案:

答案 0 :(得分:0)

似乎该问题与图像中只有一个字符有关。例如,我尝试了这两个图像:

这个工作正常。 Tesseract报告结果有95%的信心:

enter image description here

这个不起作用。

enter image description here

我还尝试将PageSegMode设置为SingleChar扫描该图像,然后将其扫描完好。

该命令行参数应为-psm 10。请参阅:https://stackoverflow.com/a/26418458/5894241

答案 1 :(得分:0)

正如您所说的,您需要将模式更改为单字符模式,您可以使用以下命令在python中进行操作

pytesseract.image_to_string(img_path , config="--psm 10")