如何开发用于从收据中提取信息的机器学习模型

时间:2019-05-06 09:55:18

标签: machine-learning ocr information-extraction receipt

我正在一个项目中提取收据图像的信息。我将Google Vision API用作OCR,我想从收据中提取 总计增值税。我正在考虑使用机器学习方法,因为收据的结构不相同。

以下是一些使用ML方法的收据扫描商业产品,

Google Vision API提供了原始文本及其边界框。我们如何从原始文本中提取必要的信息?

1 个答案:

答案 0 :(得分:0)

我认为您可能需要定义一些要提取的部分。例如,参考ID,您需要确定您将其称为什么。正如一些商店将其称为“参考ID”,有人将其称为“参考代码”,而又有人将其称为“参考ID”。您可以使用命名实体识别来捕获这些单词。然后训练一个分类模型,以将所有这些不同的名称映射到您确定的特定名称。这实际上是文本分类。然后,您还可以训练命名实体识别模型来捕获实际的代码,并将其附加到节名称中。