我必须构建一个通过模板分析来自不同公司的不同PDF的系统。将为公司创建一次的模板将引用PDF中已经存在的提取字段,以提取这些信息(产品列表,活动列表,公司名称等)。
提取字段是简单的非结构化字符串。
然后,我必须用这些实体填充数据库。要提取它们,我正在考虑信息提取,但这是问题所在:
我在数据库上只有一个单独的实体,例如“活动”和“产品”,我必须填写来自这些不同公司模板的不同格式。
例如,数据库上的“活动”实体是基于以下属性构成的:描述,工人标识符,成本,工期,开始时间...
来自XXX公司PDF的示例活动:
[ "Complex Description" 293912(Identifier) 2,75(Cost) 5,75h(Duration) ...]
来自YYY公司PDF的示例活动:
[ AKLUNS (Identifier of Worker) "description" 2990(Cost) 30m(Duration) ...]
因此,我可以对相同的东西使用不同的FORMATS格式,可以使用REGEX规则进行操作,但是问题是该系统将是自动化且动态的:
如果新客户想要加入该系统,则其提取字段必须位于相同的实体DB(例如,Activity)上,但我不知道其格式。如果标识符不符合我的REGEX规则? (要求是我不能在“截止日期”之后对系统进行其他修改)
我当时在考虑一个信息提取系统,但是我了解到它是建立在REGEX规则和示例上的。但是,如果我有2种或更多种不同格式的Activity,该如何构建示例?对于将要加入的新公司,我将需要创建新的示例,依此类推。虽然必须自动执行该系统才能使用提取的字段填充数据库。
我该怎么办?我不确定我是否解释正确。让我知道! 谢谢!