我正在使用pytesseract对图像执行OCR。问题在于pytesseract能够正确识别单词和句子。但是,它很难与数字识别相对应。
我想获得所提取的字符/单词的信心。如果置信度低,我可以将tesseract与可接受的仅包含数字的char列表一起使用,从而提高准确性。
我尝试了pytesseract的多个PSM模式,所有模式都具有相同的结果。我增加了图像的大小,执行了多个不同的过滤器以提高准确性,但没有成功。
我使用以下代码执行识别: pytesseract.image_to_string(im,config ='-psm 6',lang =语言)
我也尝试了以下代码(在stackoverflow上找到),但是文本没有配置参数。
text = pytesseract.image_to_data(im, output_type='data.frame',config ='--psm {}'.format(config),lang = languages)
text = text[text.conf != -1]
lines = text.groupby('block_num')['text'].apply(list)
conf = text.groupby(['block_num'])['conf'].mean()
我希望对所识别的单词/字符有信心,因此我可以调整有效的字符列表以提高OCR准确性。
非常感谢您的帮助!