我正在使用tesseract-ocr并以hOCR格式获取输出。我需要将此hOCR输出存储到数据库中(在我的情况下为PostgreSQL)。
由于我可能需要分别从此hOCR中获取每条信息(其中的80%),这是正确的方法吗?应该将其存储为XML数据类型还是解析为JSON并存储?并且在使用JSON的情况下,如何使用Python将hOCR解析为JSON。其他相关建议也将受到赞赏。
答案 0 :(得分:2)
hOCR似乎是XML的方言,因此您应该能够使用stdlib中的xml.etree
模块将hOCR代码解析为Python可导航树。然后,在该树上导航以组成对象或嵌套字典,然后最终使用stdlib的json
模块将该字典转换为JSON。