以下代码将图像文本转换为字符串,但不准确,sampe image之间有一些特殊字符
from PIL import Image
import pytesseract
image=Image.open('C://Users/Arjun/Desktop/1512350.jpg')
pytesseract.pytesseract.tesseract_cmd='C://Program Files (x86)/Tesseract-
OCR/tesseract'
result=pytesseract.image_to_string(image,config='-psm7 -c
tessedit_char_whitlist=ABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890')
print(result)
输出:
fl /'S'TIW°MILLER'1003055666°胶/ 71; C6521:pmuzznmmimfmmpmy * 5mg [e * 2900456023°Uj7s564550°130013°mm 5 \ 1£®IC/’(L 0£0wEmm'2zowLI5vg gazmyw 250 0’/ lrkksrmgf“ fl owzzyvg(jfiff-W” M * 42101°wowiany“ qw— I’Va:/ 11 /£172'J6’19955.65 * 5685.26“ 4586.65’萨法西夫
答案 0 :(得分:0)
@Arjun,我认为与其直接传递图像,不如尝试对图像应用一些操作以获得更好的结果。尝试应用阈值,例如二进制阈值,自适应阈值,Otsu_binary阈值,然后尝试获取结果。我认为这可能会给您准确的结果,如果您遇到问题,请告诉我。谢谢
您可以参考此链接以了解使用更好的阈值技术 Threshold Doc