Question

我正在测试Pytesseract，并用它来提取数字，如下所示。

图像质量相当不错（200 dpi）。但是，当我运行pytesseract时，它会给我结果 456- / 8-0000 ，其中数字7被误认为'/'。尽管“ /”显然与数字7相似，但鉴于图像的高质量，我仍然对此感到惊讶。

我都尝试过

pytesseract.image_to_string(img)

和

pytesseract.image_to_string(img, lang='eng', config='--psm 13 --oem 2 -c tessedit_char_whitelist=0123456789-')

两者都得到相同的结果。

任何有关如何提高识别准确性的指针都将是很棒的。谢谢！

Answer 1

您使用的哪个版本的tesseract。哪个tessdata？ tessdata公司最近发布了tesseract和eng，最好的结果是完美的：

> tesseract 0mIe5.png  - quiet
456-78-0000