应用错误收集

从深度学习的表单中提取文本的最佳方法？

时间：2018-03-06 06:30:44

标签： machine-learning computer-vision deep-learning

我有一个表格作为下面的图像，我想提取所有信息，包括印刷文本（书籍，ID）和数字手写文本（订单数量）作为txt文件。有谁能建议我什么是最好的解决方案？我目前的想法是：

使用深度学习从每列获取对象的位置。
应用Tesseract从这些对象中提取文本。（有没有更好的lib？）
使用深度学习重新构建手写文字

1 个答案:

答案 0 :(得分：0)

您可以使用名为EAST的文本本地化模型从图像中获取提取文本。 https://github.com/argman/EAST

然后您可以使用其中一个OCR模型来转录文本。