应用错误收集

如何开发用于从收据中提取信息的机器学习模型

时间：2019-05-06 09:55:18

标签： machine-learning ocr information-extraction receipt

我正在一个项目中提取收据图像的信息。我将Google Vision API用作OCR，我想从收据中提取总计和增值税。我正在考虑使用机器学习方法，因为收据的结构不相同。

以下是一些使用ML方法的收据扫描商业产品，

Google Vision API提供了原始文本及其边界框。我们如何从原始文本中提取必要的信息？

1 个答案:

答案 0 :(得分：0)

我认为您可能需要定义一些要提取的部分。例如，参考ID，您需要确定您将其称为什么。正如一些商店将其称为“参考ID”，有人将其称为“参考代码”，而又有人将其称为“参考ID”。您可以使用命名实体识别来捕获这些单词。然后训练一个分类模型，以将所有这些不同的名称映射到您确定的特定名称。这实际上是文本分类。然后，您还可以训练命名实体识别模型来捕获实际的代码，并将其附加到节名称中。