如何获得ocr输出的信任率?

时间:2018-02-18 10:11:34

标签: python ocr tesseract

有没有办法获得由trust rate生成的OCR输出的Pytesseract? 我所说的信任率是OCR输出的正确百分比。

示例:

text = pytesseract.image_to_string(editedImage) 

对于此文本字符串,我还希望在可能的情况下显示信任率。

编辑:我尝试了image_to_data,但我收到了错误

print(pytesseract.image_to_data(Image.open('test.png')))



Traceback (most recent call last):
  File "/usr/lib/python3.4/tkinter/__init__.py", line 1536, in __call__
    return self.func(*args)
  File "/home/caner/Desktop/Met/OCR-METv3/venv/tkgui.py", line 192, in convert
    print(pytesseract.image_to_data(Image.open('test.png')))
  File "/home/caner/Desktop/Met/OCR-METv3/venv/lib/python3.4/site-packages/pytesseract/pytesseract.py", line 232, in image_to_data
    return run_and_get_output(image, 'tsv', lang, config, nice)
  File "/home/caner/Desktop/Met/OCR-METv3/venv/lib/python3.4/site-packages/pytesseract/pytesseract.py", line 142, in run_and_get_output
    with open(filename, 'rb') as output_file:
FileNotFoundError: [Errno 2] No such file or directory: '/tmp/tess_2mxczh8n_out.tsv' 

1 个答案:

答案 0 :(得分:1)

我的猜测是,您confidence指的是trust rate。 在pytesseract模块here的回购中有一些关于此的信息。

  

功能

     
      
  • image_to_string 将图像上的Tesseract OCR运行结果返回到字符串
  •   
  • image_to_boxes 返回包含已识别字符及其框边界的结果
  •   
  • image_to_data 返回包含框边界,置信度和其他信息的结果。需要Tesseract 3.05+。有关更多信息,请查看Tesseract TSV文档
  •   

我认为您正在寻找的是image_to_data功能。