我有几张已扫描的发票已传递到 google-cloud-vision OCR ,并且发票中的文本块与CSV文件中的每一行一样。 我的目标是训练一个模型以从任何非结构化发票中提取税额和其他类似实体。 NER(命名实体识别)模型使用预训练的识别方法,在此方法中可以将单词识别为类别。但是在我的OCR输出中,我已经在某些区域使用了术语“ Tax Total”,而在另一区域中使用了税额(例如“ 800.00”),这看起来看起来很结构化,但是在OCR之后,它们倾向于去不同的区域。我如何使模型理解3或4笔金额中,此特定金额是税额。人眼可以察觉。但是我如何在模型中训练它。简而言之,我需要创建自定义命名实体,这些实体的名称位于文档本身中(例如,数量:2,发票编号:3456789),但是它们是非结构化的。 我要映射,this(Quantity)与this(2)有关。那(税收总计/税收金额)与那(345.00 / xxx.xx)有关。这种关系取决于特定的文档,而不是像麦克一样的人那样普遍。请帮助。
我尝试使用ElMo模型,并训练了一个表面层来进行分类,并且相当不错地进行了分类。但是,它仅将单个单词归为一个类别,并且难以理解上下文。
例如:如果视觉信息如下:
2 | 1600.00
税收| 300.00
盛大|
总计| 1900.00
OCR输出在csv中可能如下
0 |总数量
1 | 2税
2 | 1600.00
3 | 300.00
4 |总计1900.00
(这只是一个示例。发票可能会千差万别,而且类型和格式也不同)
我需要ML模型来了解,这三个数字看起来像是成本/总计。总计税额仅为300.00。标签税已经在原始数据中给出了,但我不知道如何将两者联系起来。
任何帮助将不胜感激