我们要求从非结构化文档类型(例如,发票)中提取人员,位置和组织等专有名词。
我们尝试了下面的事情:
使用Stanford NER分类器提取数据。与其他分类器相比,7类分类器提供了更好的结果,但实现的准确性太低了。
根据建议,我们尝试将无壳分类器用于非结构化文档类型,准确度略高于早期,但仍然不够好。
我们尝试使用斯坦福NER功能训练模型,但这意味着像其他人一样训练非名词实体。
因此,为了避免像其他人一样训练非名词实体,我们决定使用斯坦福核心NLP Regexner功能训练我们自己的数据模型。但是,一些受过训练的实体被标记为其他实体。例如。在某些情况下,被培训为地点的意大利被标记为其他人。请帮忙。
示例输入:
Sham Ventures
Unit no. 1833, Burj Tower
Plot No. 12 A
Sheikh Zayed Street
P.O.Box 486095
Dubai - U.A.E.
Tel. : +971-4-XXXXXX
Fax : +971-4-XXXXXXX
APPLICATION FOR COLLECTION OF BILLS
DATE: MARCH 14, 2015
TO: TEST BANK
DUBAI, UAE
ATTN: BILLS DEPARTMENT
COLLECTING BANK
DUMMY BANK LIMITED
PLOT 455 Park Avenue Street
P.O.Box 1234
Lagos, Nigeria
TENOR OF DRAFT
60 DAYS FROM B/L DATE MARCH 14, 2015
AMOUNT OF DRAFT
US$90,450.00(US DOLLARS NINETY THOUSAND FOUR HUNDRED FIFTY ONLY)
NAME & ADDRESS OF DRAWER
Sham Ventures
Unit no. 1833, Burj Tower
Plot No. 12 A
Sheikh Zayed Street
P.O.Box 486095
Dubai - U.A.E.
NAME & ADDRESS OF DRAWEE(Buyer)
SUNSHINE MERCANTILE CO LIMITED
PLOT NO. 456 Park Avenue Street
Lagos, Nigeria
PLEASE FOLLOW INSTRUCTIONS MARKED X
DELIVER DOCUMENTS AGAINST PAYMENT ACCEPTANCE
NON-PAYMENT PROTEST NO PRTEST ADVISE BY MAIL ADVISE BY CABLE
INTEREST AT 6% PER ANNUM FROM B/L DATE MARCH 15,2015 to JULY 16, 2015
DO NOT SEND CHASERS FOR NON-ACCEPTANCE OR NON PAYMENT
PLEASE CONTACT AKBAR AT TELEPHONE NO. +971XXXXXXXX FOR INSTRUCTIONS, STAMP & AUTHORISED SIGNATORY(S)
ENQUIRY REGARDING THESE DRAFTS AND OR DOCUMENTS
我们希望能够提取以下专有名词: 组织 - Sham Ventures,TEST BANK,DUMMY BANK LIMITED,SUNSHINE MERCANTILE CO LIMITED
地点 - 迪拜,U.A.E,阿联酋,拉各斯,尼日利亚
人 - AKBAR
使用斯坦福NER 7级无壳模型提取的输出如下:
位置 - 迪拜,拉各斯,尼日利亚 组织 - 阿联酋U.A.E
因此,我们训练了误报和漏报(跟随数据)以提高实体提取的准确性:
假阴性 -
组织 - Sham Ventures,TEST BANK,DUMMY BANK LIMITED,SUNSHINE MERCANTILE CO LIMITED
人 - AKBAR
误报 -
地点 - 阿联酋U.A.E。
训练数据后的输出 -
与人AKBAR
组织 - DUMMY BANK LIMITED,Sham Ventures,SUNSHINE MERCANTILE CO LIMITED,TEST BANK
位置-U.A.E,阿联酋,拉各斯,尼日利亚,美国
在这里,结果中缺少迪拜。
由于这种情况,具有大量专有名词的文档的合成精度很低
我们也看到很多误报,例如,
输入,
您诚挚的 博世包装服务公司
输出
组织 - 您诚挚的博世包装服务公司
此外,几乎所有缩写都标记为使用斯坦福的组织。
有没有办法处理这种误报,以便我们只获得所需的输出?
请建议。
提前致谢。
ARTI