从深度学习的表单中提取文本的最佳方法?

时间:2018-03-06 06:30:44

标签: machine-learning computer-vision deep-learning

我有一个表格作为下面的图像,我想提取所有信息,包括印刷文本(书籍,ID)和数字手写文本(订单数量)作为txt文件。 有谁能建议我什么是最好的解决方案? 我目前的想法是:

  1. 使用深度学习从每列获取对象的位置。
  2. 应用Tesseract从这些对象中提取文本。 (有没有更好的lib?)
  3. 使用深度学习重新构建手写文字
  4. enter image description here

1 个答案:

答案 0 :(得分:0)

您可以使用名为EAST的文本本地化模型从图像中获取提取文本。 https://github.com/argman/EAST

然后您可以使用其中一个OCR模型来转录文本。