应用错误收集

使用Python将hOCR解析为JSON

时间：2018-07-19 11:16:36

标签： python postgresql parsing python-tesseract hocr

我正在使用tesseract-ocr并以hOCR格式获取输出。我需要将此hOCR输出存储到数据库中（在我的情况下为PostgreSQL）。

由于我可能需要分别从此hOCR中获取每条信息（其中的80％），这是正确的方法吗？应该将其存储为XML数据类型还是解析为JSON并存储？并且在使用JSON的情况下，如何使用Python将hOCR解析为JSON。其他相关建议也将受到赞赏。

1 个答案:

答案 0 :(得分：2)

hOCR似乎是XML的方言，因此您应该能够使用stdlib中的xml.etree模块将hOCR代码解析为Python可导航树。然后，在该树上导航以组成对象或嵌套字典，然后最终使用stdlib的json模块将该字典转换为JSON。