我正在测试Pytesseract,并用它来提取数字,如下所示。
图像质量相当不错(200 dpi)。但是,当我运行pytesseract时,它会给我结果 456- / 8-0000 ,其中数字7被误认为'/'。尽管“ /”显然与数字7相似,但鉴于图像的高质量,我仍然对此感到惊讶。
我都尝试过
pytesseract.image_to_string(img)
和
pytesseract.image_to_string(img, lang='eng', config='--psm 13 --oem 2 -c tessedit_char_whitelist=0123456789-')
两者都得到相同的结果。
任何有关如何提高识别准确性的指针都将是很棒的。谢谢!
答案 0 :(得分:0)
您使用的哪个版本的tesseract。哪个tessdata? tessdata公司最近发布了tesseract和eng,最好的结果是完美的:
> tesseract 0mIe5.png - quiet
456-78-0000