如何有效地从合同中提取信息?

时间:2019-08-07 18:11:02

标签: nlp dataset lstm named-entity-recognition crf

给出协议/合同,提取信息,例如涉及当事人和日期。除了数据集,我还需要一个抽象的概述,该如何进行。

http://nlp.cs.aueb.gr/pubs/jurix2017.pdf 我已经按照本文给出的步骤进行操作,但是它们保持了数据集的编码。以下是编码数据集的链接 http://nlp.cs.aueb.gr/software_and_datasets/CONTRACTS_ICAIL2017/index.html
我该如何克服呢?

除此之外,我尝试使用spacy的命名实体识别器进行组织提取,但是误报的数量非常多。例如,一个协议由两个组织组成,但spacy的输出包括这两个+其他x个组织(误报率,其中x很高),因此过滤出去变得非常困难。我需要一种减少这些误报的方法。

考虑以下段落 “ XYZ与ABC之间存在协议,其中XYZ是客户,而ABC是服务提供商” 因此,无论在文档中何处提到“服务提供商”或“客户”,都将其标记为组织实体。

0 个答案:

没有答案