确认实体的最佳方法

时间:2015-09-04 14:16:06

标签: java nlp text-mining opennlp named-entity-recognition

我想了解解决以下问题的最佳方法。

我的文件与resume / cv非常相似,我必须提取实体(姓名,姓氏,生日,城市,邮政编码等)。

要提取这些实体,我正在组合不同的查找器(正则表达式,字典等)

这些发现者没有问题,但是,我正在寻找一种方法/算法或类似的东西来确认实体。

用"确认"我的意思是我必须在邻近中找到特定的术语(或实体)(更接近我找到的实体)。

示例:

My name is <name>
Name: <name>
Name and Surname: <name>

我可以确认实体<name>,因为它更接近于让我理解&#34; context&#34;的特定术语。如果我有&#34; name&#34;或&#34;姓&#34;实体附近的单词,所以我可以说我很有可能找到了<name>

因此,目标是编写这些规则来确认实体。另一个例子应该是:

  

我的地址是......,00143罗马

意大利邮政编码是5位数字(仅限数字),很容易在我的文档中找到5位数字(我使用上面写的正则表达式),我也通过查询数据库来检查它是否有数字存在。这里的问题是我需要再检查一下(绝对)确认它。

我必须看看这个号码是否在实体<city>附近,如果是,好的......我有很好的概率。

我也试过训练一个模型,但我真的没有&#34;背景&#34; (句子)。 用以下方法训练模型:

My name is: <name>John</name>
Name: <name>John</name>
Name/Surname: <name>John</name>
<name>John</name> is my name

对我来说听起来不太好,因为:

  1. 我读过我们需要很多句子才能培养好模特
  2. 那些不是&#34;句子&#34;我没有&#34; context&#34; (记得我说的文件类似于resume / cv)
  3. 也许这些短语太短
  4. 我不知道有多少种不同的方法可以说出确切的事情,但我肯定无法找到15000种方式:)

    我应该使用哪种方法来确认我的实体?

    非常感谢你!

1 个答案:

答案 0 :(得分:0)

编程在这一点上真的是一门艺术。您必须找到一种方法,系统用户将严格使用您的字段,以便您可以将它们作为[实体值]读取。

现在我的想法是,您的想法是,这个编程工具如何识别代码中的错误并突出显示导致错误的原因?

enter image description here

我的2美分..希望这会有所帮助。

我真的对这些项目感兴趣!