Question

我正致力于从ID中提取数据，我需要提取个人数据，例如姓名，出生数据等。

我尝试过pytessaract，只是给它整个未剪切的ID图像：

txt = tool.image_to_string(
    Image.open('main.jpeg'),
    lang=lang,
    builder=pyocr.builders.TextBuilder())

它返回：

u'9":\nREPUBLIKA XXXX %. OSOBNAi\ufb01KAZNICA\n\n \n\n  \n\nREPUBLIC OF XXX IDENTITY CARD\n\u2019 Surname\n XXX -_\n\u201dno/Nam.\nTXXX\n1041mm} W\u201c W\u201c\n32mm? \xb0"""\u201c\u201c\xb0 Km\nMm mam\npom/5mm:- medium'

这不是那么好。

我想也许可以给pytesseract定位在哪里？盒子的种类......如果它是一个好主意，我应该在哪里看？

所有ID都有相同的模板。目前，我在游行中并不感兴趣。

示例：

Answer 1

您还可以使用支持您发布的文档的现成软件。

请在此处找到有关decodeArea和Templating API的更多信息：https://github.com/BlinkID/blinkid-ios/wiki/Using-Templating-API

此外，这是姓氏周围的方框示例：

这只是姓氏的示例，但我们已经添加了对旧ID和新ID的支持，以及来自正面和背面的所有信息。

免责声明：我为创建BlinkID模板API的公司工作。

此致

pytesseract：使用框

1 个答案: