我正致力于从ID中提取数据,我需要提取个人数据,例如姓名,出生数据等。
我尝试过pytessaract,只是给它整个未剪切的ID图像:
txt = tool.image_to_string(
Image.open('main.jpeg'),
lang=lang,
builder=pyocr.builders.TextBuilder())
它返回:
u'9":\nREPUBLIKA XXXX %. OSOBNAi\ufb01KAZNICA\n\n \n\n \n\nREPUBLIC OF XXX IDENTITY CARD\n\u2019 Surname\n XXX -_\n\u201dno/Nam.\nTXXX\n1041mm} W\u201c W\u201c\n32mm? \xb0"""\u201c\u201c\xb0 Km\nMm mam\npom/5mm:- medium'
这不是那么好。
我想也许可以给pytesseract定位在哪里?盒子的种类......如果它是一个好主意,我应该在哪里看?
所有ID都有相同的模板。目前,我在游行中并不感兴趣。
示例:
答案 0 :(得分:1)
您还可以使用支持您发布的文档的现成软件。
请在此处找到有关decodeArea和Templating API的更多信息:https://github.com/BlinkID/blinkid-ios/wiki/Using-Templating-API
这只是姓氏的示例,但我们已经添加了对旧ID和新ID的支持,以及来自正面和背面的所有信息。
免责声明:我为创建BlinkID模板API的公司工作。
此致