应用错误收集

这是一个悬而未决的问题。我会尝试使其更加具体。

我们正在研究一个从专利文本中提取发明人位置的项目（请参阅https://github.com/Antoberge/patent_city）。到目前为止，我们混合使用了spaCy词组匹配器，基于规则的匹配器和NER（GPE）。这样已经可以提供良好的结果，但是我们无法区分2个不同的地址序列，例如有2个或更多的发明者。

以下是一些示例，可以帮助您了解设置。

一位发明人的案例：

这些专利证书中提及的附表，并成为相同。对所有可能致癌的人-知道我，贾里德·A。 county of Hartford and State of Connecticut [ADDRESS]的Hartford的AYRE发明了某些新的有用的Im 提水方法证明；我在此声明以下是完整，清晰，准确的描述

有2个发明人的案例

众所周知，city and county of Wasl1ington,'and District of Columbia [ADDRESS]的WILLIAM F. GOODWIN和ARTHUR W. city of Brooklyn, Kings county, State of New York [ADDRESS]中的BROWNE已发明了一些新的有用的改进，运行收割机耙的机制；我们在此声明以下是完整，清晰和准确的描述

我看到2个选项：

应用现有的开源解决方案：到目前为止，我还没有找到任何现代的现成的实现方式，尽管如此，它还是一种序列标记任务。我可能已经错过了。任何想法都是最欢迎的
训练特定的序列标签模型：根据我在spaCy文档中看到的内容，spaCy NER似乎专用于单个实体，而ADDRESS序列由多个实体组成。这就是为什么我在考虑条件随机字段模型，却找不到在Python中实现它的好方法-暗示这可能是过时的解决方案（？）。我可能已经错过了。任何建议（最有可能在现有替代方法上提出建议）

最欢迎您对这两个选项或第三个选项有任何见解。

干杯！

从非结构化文本中提取地址序列

0 个答案: