使用表单识别器进行有监督的学习

时间:2019-06-27 14:17:02

标签: form-recognizer

我正在尝试使用Microsoft的Form Recognizer API分析表单,但是没有看到期望的结果。在表单上训练模型后,生成的键很少是我想要的。有谁知道是否有提高钥匙识别准确性的方法?我当时在想作为一种监督学习的形式进行培训时,可能有某种方法可以列出键/值对。

Here是我要解析的形式的示例。

我希望输入“ Year”,“ Make”,“ Model”和“ VIN”键。但是相反,模型返回的是“车辆”键,其中包含“年”,“制造”,“模型”和“ VIN”值以及它们的后续值。

我知道我特别询问过有监督的学习,但实际上,任何有关提高表单识别器模型准确性的技术或技巧都将不胜感激。

2 个答案:

答案 0 :(得分:1)

Azure表单识别器现在提供了一种监督学习工具,用于为使用默认的无监督学习模式难以训练的表单调整模型。

以下是使用该工具的方法: https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/label-tool

答案 1 :(得分:0)

您是否使用5个样本表格来训练模型?您是否可以尝试将不含值的空白表格添加到训练数据中,看看是否有帮助?扫描的是高质量的表格还是倾斜的?

以下是有关如何提高准确性的一些提示:

如何为自定义模型构建训练数据集 使用Form Recognizer自定义模型时,您将提供自己的训练数据,以便该模型可以训练成针对特定行业的表单。您可以使用五个填写的表单或一个空的表单(文件名中包含单词“ empty”)加上两个填写的表单来训练模型。即使您有足够的填写表格进行训练,向训练数据集添加空表格也可以提高模型的准确性。

使用针对训练而优化的数据集很重要。使用以下提示,以确保从“火车模型”操作中获得最佳结果:

•如果可能,请使用基于文本的PDF文档而不是基于图像的文档。扫描的PDF将作为图像处理。 •如果可用,请使用一个空白表格和两个已填写的表格。 •对于填写的表格,请使用填写了所有字段的示例。 •在每个字段中使用具有不同值的表单。 •如果表单图像的质量较低,请使用较大的数据集(例如10-15张图像)。