我想了解解决以下问题的最佳方法。
我的文件与resume / cv非常相似,我必须提取实体(姓名,姓氏,生日,城市,邮政编码等)。
要提取这些实体,我正在组合不同的查找器(正则表达式,字典等)
这些发现者没有问题,但是,我正在寻找一种方法/算法或类似的东西来确认实体。
用"确认"我的意思是我必须在邻近中找到特定的术语(或实体)(更接近我找到的实体)。
示例:
My name is <name>
Name: <name>
Name and Surname: <name>
我可以确认实体<name>
,因为它更接近于让我理解&#34; context&#34;的特定术语。如果我有&#34; name&#34;或&#34;姓&#34;实体附近的单词,所以我可以说我很有可能找到了<name>
。
因此,目标是编写这些规则来确认实体。另一个例子应该是:
我的地址是......,00143罗马
意大利邮政编码是5位数字(仅限数字),很容易在我的文档中找到5位数字(我使用上面写的正则表达式),我也通过查询数据库来检查它是否有数字存在。这里的问题是我需要再检查一下(绝对)确认它。
我必须看看这个号码是否在实体<city>
附近,如果是,好的......我有很好的概率。
我也试过训练一个模型,但我真的没有&#34;背景&#34; (句子)。 用以下方法训练模型:
My name is: <name>John</name>
Name: <name>John</name>
Name/Surname: <name>John</name>
<name>John</name> is my name
对我来说听起来不太好,因为:
我不知道有多少种不同的方法可以说出确切的事情,但我肯定无法找到15000种方式:)
我应该使用哪种方法来确认我的实体?
非常感谢你!