pytesseract:使用框

时间:2018-04-23 08:59:12

标签: python ocr python-tesseract

我正致力于从ID中提取数据,我需要提取个人数据,例如姓名,出生数据等。

我尝试过pytessaract,只是给它整个未剪切的ID图像:

txt = tool.image_to_string(
    Image.open('main.jpeg'),
    lang=lang,
    builder=pyocr.builders.TextBuilder())

它返回:

u'9":\nREPUBLIKA XXXX %. OSOBNAi\ufb01KAZNICA\n\n \n\n  \n\nREPUBLIC OF XXX IDENTITY CARD\n\u2019 Surname\n XXX -_\n\u201dno/Nam.\nTXXX\n1041mm} W\u201c W\u201c\n32mm? \xb0"""\u201c\u201c\xb0 Km\nMm mam\npom/5mm:- medium'

这不是那么好。

我想也许可以给pytesseract定位在哪里?盒子的种类......如果它是一个好主意,我应该在哪里看?

所有ID都有相同的模板。目前,我在游行中并不感兴趣。

示例:

enter image description here

1 个答案:

答案 0 :(得分:1)

您还可以使用支持您发布的文档的现成软件。

请在此处找到有关decodeArea和Templating API的更多信息:https://github.com/BlinkID/blinkid-ios/wiki/Using-Templating-API

此外,这是姓氏周围的方框示例: enter image description here

这只是姓氏的示例,但我们已经添加了对旧ID和新ID的支持,以及来自正面和背面的所有信息。

免责声明:我为创建BlinkID模板API的公司工作。

此致