从非结构化文本中提取地址序列

时间:2020-02-26 11:38:51

标签: python spacy ner crf

这是一个悬而未决的问题。我会尝试使其更加具体。

我们正在研究一个从专利文本中提取发明人位置的项目(请参阅https://github.com/Antoberge/patent_city)。到目前为止,我们混合使用了spaCy词组匹配器,基于规则的匹配器和NER(GPE)。这样已经可以提供良好的结果,但是我们无法区分2个不同的地址序列,例如有2个或更多的发明者。

以下是一些示例,可以帮助您了解设置。

  • 一位发明人的案例:

这些专利证书中提及的附表,并成为 相同。对所有可能致癌的人-知道我,贾里德·A。 county of Hartford and State of Connecticut [ADDRESS]的Hartford的AYRE发明了某些新的有用的Im 提水方法证明;我在此声明 以下是完整,清晰,准确的描述

  • 有2个发明人的案例

众所周知,city and county of Wasl1ington,'and District of Columbia [ADDRESS]的WILLIAM F. GOODWIN和ARTHUR W. city of Brooklyn, Kings county, State of New York [ADDRESS]中的BROWNE已发明了一些新的有用的改进, 运行收割机耙的机制;我们在此声明 以下是完整,清晰和准确的描述

我看到2个选项:

  • 应用现有的开源解决方案:到目前为止,我还没有找到任何现代的现成的实现方式,尽管如此,它还是一种序列标记任务。我可能已经错过了。任何想法都是最欢迎的
  • 训练特定的序列标签模型:根据我在spaCy文档中看到的内容,spaCy NER似乎专用于单个实体,而ADDRESS序列由多个实体组成。这就是为什么我在考虑条件随机字段模型,却找不到在Python中实现它的好方法-暗示这可能是过时的解决方案(?)。我可能已经错过了。任何建议(最有可能在现有替代方法上提出建议)

最欢迎您对这两个选项或第三个选项有任何见解。

干杯!

0 个答案:

没有答案