Question

我必须构建一个通过模板分析来自不同公司的不同PDF的系统。将为公司创建一次的模板将引用PDF中已经存在的提取字段，以提取这些信息（产品列表，活动列表，公司名称等）。

提取字段是简单的非结构化字符串。

然后，我必须用这些实体填充数据库。要提取它们，我正在考虑信息提取，但这是问题所在：

我在数据库上只有一个单独的实体，例如“活动”和“产品”，我必须填写来自这些不同公司模板的不同格式。

例如，数据库上的“活动”实体是基于以下属性构成的：描述，工人标识符，成本，工期，开始时间...

来自XXX公司PDF的示例活动：

[ "Complex Description"  293912(Identifier) 2,75(Cost) 5,75h(Duration) ...]

来自YYY公司PDF的示例活动：

[ AKLUNS (Identifier of Worker)  "description" 2990(Cost) 30m(Duration) ...]

因此，我可以对相同的东西使用不同的FORMATS格式，可以使用REGEX规则进行操作，但是问题是该系统将是自动化且动态的：

如果新客户想要加入该系统，则其提取字段必须位于相同的实体DB（例如，Activity）上，但我不知道其格式。如果标识符不符合我的REGEX规则？（要求是我不能在“截止日期”之后对系统进行其他修改）

我当时在考虑一个信息提取系统，但是我了解到它是建立在REGEX规则和示例上的。但是，如果我有2种或更多种不同格式的Activity，该如何构建示例？对于将要加入的新公司，我将需要创建新的示例，依此类推。虽然必须自动执行该系统才能使用提取的字段填充数据库。

我该怎么办？我不确定我是否解释正确。让我知道！谢谢！