使用Python将hOCR解析为JSON

时间:2018-07-19 11:16:36

标签: python postgresql parsing python-tesseract hocr

我正在使用tesseract-ocr并以hOCR格式获取输出。我需要将此hOCR输出存储到数据库中(在我的情况下为PostgreSQL)。

由于我可能需要分别从此hOCR中获取每条信息(其中的80%),这是正确的方法吗?应该将其存储为XML数据类型还是解析为JSON并存储?并且在使用JSON的情况下,如何使用Python将hOCR解析为JSON。其他相关建议也将受到赞赏。

1 个答案:

答案 0 :(得分:2)

hOCR似乎是XML的方言,因此您应该能够使用stdlib中的xml.etree模块将hOCR代码解析为Python可导航树。然后,在该树上导航以组成对象或嵌套字典,然后最终使用stdlib的json模块将该字典转换为JSON。