这是一个悬而未决的问题。我会尝试使其更加具体。
我们正在研究一个从专利文本中提取发明人位置的项目(请参阅https://github.com/Antoberge/patent_city)。到目前为止,我们混合使用了spaCy词组匹配器,基于规则的匹配器和NER(GPE)。这样已经可以提供良好的结果,但是我们无法区分2个不同的地址序列,例如有2个或更多的发明者。
以下是一些示例,可以帮助您了解设置。
这些专利证书中提及的附表,并成为 相同。对所有可能致癌的人-知道我,贾里德·A。
county of Hartford and State of Connecticut [ADDRESS]
的Hartford的AYRE发明了某些新的有用的Im 提水方法证明;我在此声明 以下是完整,清晰,准确的描述
众所周知,
city and county of Wasl1ington,'and District of Columbia [ADDRESS]
的WILLIAM F. GOODWIN和ARTHUR W.city of Brooklyn, Kings county, State of New York [ADDRESS]
中的BROWNE已发明了一些新的有用的改进, 运行收割机耙的机制;我们在此声明 以下是完整,清晰和准确的描述
我看到2个选项:
最欢迎您对这两个选项或第三个选项有任何见解。
干杯!