Question

以下代码将图像文本转换为字符串，但不准确，sampe image之间有一些特殊字符

from PIL import Image
import pytesseract

image=Image.open('C://Users/Arjun/Desktop/1512350.jpg')
pytesseract.pytesseract.tesseract_cmd='C://Program Files (x86)/Tesseract- 
OCR/tesseract'
result=pytesseract.image_to_string(image,config='-psm7 -c 
tessedit_char_whitlist=ABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890')
print(result)

输出：

fl /'S'TIW°MILLER'1003055666°胶/ 71； C6521：pmuzznmmimfmmpmy * 5mg [e * 2900456023°Uj7s564550°130013°mm 5 \ 1£®IC/’（L 0£0wEmm'2zowLI5vg gazmyw 250 0’/ lrkksrmgf“ ﬂ owzzyvg（jfiff-W” M * 42101°wowiany“ qw— I’Va：/ 11 /£172'J6’19955.65 * 5685.26“ 4586.65’萨法西夫

Answer 1

@Arjun，我认为与其直接传递图像，不如尝试对图像应用一些操作以获得更好的结果。尝试应用阈值，例如二进制阈值，自适应阈值，Otsu_binary阈值，然后尝试获取结果。我认为这可能会给您准确的结果，如果您遇到问题，请告诉我。谢谢

您可以参考此链接以了解使用更好的阈值技术 Threshold Doc

如何在python

1 个答案: