如何在python

时间:2019-03-09 03:12:47

标签: python ocr tesseract

以下代码将图像文本转换为字符串,但不准确,sampe image之间有一些特殊字符

from PIL import Image
import pytesseract

image=Image.open('C://Users/Arjun/Desktop/1512350.jpg')
pytesseract.pytesseract.tesseract_cmd='C://Program Files (x86)/Tesseract- 
OCR/tesseract'
result=pytesseract.image_to_string(image,config='-psm7 -c 
tessedit_char_whitlist=ABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890')
print(result)

输出:

  

fl /'S'TIW°MILLER'1003055666°胶/ 71; C6521:pmuzznmmimfmmpmy * 5mg [e   * 2900456023°Uj7s564550°130013°mm 5 \ 1£®IC/’(L 0£0wEmm'2zowLI5vg gazmyw 250 0’/ lrkksrmgf“ fl owzzyvg(jfiff-W” M * 42101°wowiany“ qw—   I’Va:/ 11 /£172'J6’19955.65 * 5685.26“ 4586.65’萨法西夫

1 个答案:

答案 0 :(得分:0)

@Arjun,我认为与其直接传递图像,不如尝试对图像应用一些操作以获得更好的结果。尝试应用阈值,例如二进制阈值,自适应阈值,Otsu_binary阈值,然后尝试获取结果。我认为这可能会给您准确的结果,如果您遇到问题,请告诉我。谢谢

您可以参考此链接以了解使用更好的阈值技术 Threshold Doc