我需要对Microsoft Form Recognizer文档

时间:2019-07-31 14:40:19

标签: ocr microsoft-cognitive

Form Recognizer documentation中,说“您至少应有五种与您的主要输入数据具有相同类型/结构的填写表格(PDF文档和/或图像)”。我的数据大多采用表格形式,但某些列的数量及其内部内容有所不同。例如,有些是like this(但列中有数字),而有些类似于this one

我的问题是,由于它们都是表格式的,因此可以将它们视为相同的“类型/结构”,还是因为它们有所不同而不能将它们视为相同的“类型/结构”。

如果不能将它们视为同一类型,如果我将它们一起用作一般的“表格文档”的训练样本,是否会损害大多数性能?

我不确定这是否是问这个问题的合适地点,但如果有人可以将我重定向到我可以问这个问题或回答我问题的地方,我将不胜感激!

1 个答案:

答案 0 :(得分:0)

就我而言(上周我开始使用Form Recognizer)时,当它说相同的类型/结构时,这意味着所有文件都必须具有相同的扩展名(所有PDF或所有JPEG),并且所有文件都必须具有相同的扩展名必须在相同的地方具有相同的名称/标题的相同列/字段,以便模型可以将这些字段识别为键,然后提取与这些键关联的值。

因此,就您而言,我认为您必须针对文件的不同结构训练不同的模型。

希望有帮助!