Question

我正在使用pytesseract对图像执行OCR。问题在于pytesseract能够正确识别单词和句子。但是，它很难与数字识别相对应。

我想获得所提取的字符/单词的信心。如果置信度低，我可以将tesseract与可接受的仅包含数字的char列表一起使用，从而提高准确性。

我尝试了pytesseract的多个PSM模式，所有模式都具有相同的结果。我增加了图像的大小，执行了多个不同的过滤器以提高准确性，但没有成功。

我使用以下代码执行识别： pytesseract.image_to_string（im，config ='-psm 6'，lang =语言）

我也尝试了以下代码（在stackoverflow上找到），但是文本没有配置参数。

text = pytesseract.image_to_data(im, output_type='data.frame',config ='--psm {}'.format(config),lang = languages)
text = text[text.conf != -1]
lines = text.groupby('block_num')['text'].apply(list)
conf = text.groupby(['block_num'])['conf'].mean()

我希望对所识别的单词/字符有信心，因此我可以调整有效的字符列表以提高OCR准确性。

非常感谢您的帮助！

单词置信度pytesseract，一位数字识别

0 个答案: