tesseract的Python精度

时间:2017-03-07 12:41:00

标签: python ocr tesseract floating-accuracy

我已将tesseract ocr转换图像文件运行到字符串中。

现在我有了外线

如何比较原始PNG文件和输出文本文件是否正确

basewidth = 2700
img = Image.open('D:OCR\\page1.png')
wpercent = (basewidth/float(img.size[0]))
hsize = int((float(img.size[1])*float(wpercent)))
img = img.resize((basewidth,hsize), PIL.Image.ANTIALIAS)
img.save('page1_zoom.png') 
print(image_to_string(Image.open('D:\page1_zoom.png')))

1 个答案:

答案 0 :(得分:1)

如何检查是否准确?

您肯定需要一些手动基线/黄金数据来比较结果。您将需要测试数据或至少需要验证的参数。

Test cases could be something like: 
 1. Whole textual data 
 2. No of lines 
 3. No of Paragraphs 
 4. Position of text

Tesseract vs Google ocr:

  

如果您想使用其他OCR测试tesseract准确度,那么您可以尝试   谷歌OCR比tesseract提供更好的结果(虽然它是   基于它)

Tesseract培训:

Tesseract does provide feature of training to improve the accuracy of results.