如何提高Pytesseract提取数字的准确性

时间:2019-07-02 16:34:18

标签: python ocr tesseract python-tesseract

我正在测试Pytesseract,并用它来提取数字,如下所示。

enter image description here

图像质量相当不错(200 dpi)。但是,当我运行pytesseract时,它会给我结果 456- / 8-0000 ,其中数字7被误认为'/'。尽管“ /”显然与数字7相似,但鉴于图像的高质量,我仍然对此感到惊讶。

我都尝试过

pytesseract.image_to_string(img)

pytesseract.image_to_string(img, lang='eng', config='--psm 13 --oem 2 -c tessedit_char_whitelist=0123456789-')

两者都得到相同的结果。

任何有关如何提高识别准确性的指针都将是很棒的。谢谢!

1 个答案:

答案 0 :(得分:0)

您使用的哪个版本的tesseract。哪个tessdata? tessdata公司最近发布了tesseract和eng,最好的结果是完美的:

> tesseract 0mIe5.png  - quiet
456-78-0000