使用Stanford NLP Regexner功能

时间:2015-08-07 13:28:07

标签: nlp stanford-nlp

我们要求从非结构化文档类型(例如,发票)中提取人员,位置和组织等专有名词。

我们尝试了下面的事情:

  1. 使用Stanford NER分类器提取数据。与其他分类器相比,7类分类器提供了更好的结果,但实现的准确性太低了。

  2. 根据建议,我们尝试将无壳分类器用于非结构化文档类型,准确度略高于早期,但仍然不够好。

  3. 我们尝试使用斯坦福NER功能训练模型,但这意味着像其他人一样训练非名词实体。

  4. 因此,为了避免像其他人一样训练非名词实体,我们决定使用斯坦福核心NLP Regexner功能训练我们自己的数据模型。但是,一些受过训练的实体被标记为其他实体。例如。在某些情况下,被培训为地点的意大利被标记为其他人。请帮忙。

  5. 示例输入:

    Sham Ventures
    Unit no. 1833, Burj Tower
    Plot No. 12 A
    Sheikh Zayed Street
    P.O.Box 486095
    Dubai - U.A.E.
    Tel. : +971-4-XXXXXX
    Fax : +971-4-XXXXXXX
    APPLICATION FOR COLLECTION OF BILLS
    DATE: MARCH 14, 2015
    TO: TEST BANK 
        DUBAI, UAE
        ATTN: BILLS DEPARTMENT
    COLLECTING BANK
    DUMMY BANK LIMITED
    PLOT 455 Park Avenue Street
    P.O.Box 1234
    Lagos, Nigeria
    TENOR OF DRAFT
    60 DAYS FROM B/L DATE MARCH 14, 2015
    AMOUNT OF DRAFT
    US$90,450.00(US DOLLARS NINETY THOUSAND FOUR HUNDRED FIFTY ONLY)
    NAME & ADDRESS OF DRAWER
    Sham Ventures
    Unit no. 1833, Burj Tower
    Plot No. 12 A
    Sheikh Zayed Street
    P.O.Box 486095
    Dubai - U.A.E.
    NAME & ADDRESS OF DRAWEE(Buyer)
    SUNSHINE MERCANTILE CO LIMITED
    PLOT NO. 456 Park Avenue Street
    Lagos, Nigeria
    PLEASE FOLLOW INSTRUCTIONS MARKED X
    DELIVER DOCUMENTS AGAINST PAYMENT ACCEPTANCE
    NON-PAYMENT PROTEST NO PRTEST ADVISE BY MAIL ADVISE BY CABLE
    INTEREST AT 6% PER ANNUM FROM B/L DATE MARCH 15,2015 to JULY 16, 2015
    DO NOT SEND CHASERS FOR NON-ACCEPTANCE OR NON PAYMENT
    PLEASE CONTACT AKBAR AT TELEPHONE NO. +971XXXXXXXX FOR INSTRUCTIONS, STAMP & AUTHORISED SIGNATORY(S)
    ENQUIRY REGARDING THESE DRAFTS AND OR DOCUMENTS
    

    我们希望能够提取以下专有名词: 组织 - Sham Ventures,TEST BANK,DUMMY BANK LIMITED,SUNSHINE MERCANTILE CO LIMITED

    地点 - 迪拜,U.A.E,阿联酋,拉各斯,尼日利亚

    人 - AKBAR

    使用斯坦福NER 7级无壳模型提取的输出如下:

    位置 - 迪拜,拉各斯,尼日利亚 组织 - 阿联酋U.A.E

    因此,我们训练了误报和漏报(跟随数据)以提高实体提取的准确性:

    假阴性 -

    组织 - Sham Ventures,TEST BANK,DUMMY BANK LIMITED,SUNSHINE MERCANTILE CO LIMITED

    人 - AKBAR

    误报 -

    地点 - 阿联酋U.A.E。

    训练数据后的输出 -

    与人AKBAR

    组织 - DUMMY BANK LIMITED,Sham Ventures,SUNSHINE MERCANTILE CO LIMITED,TEST BANK

    位置-U.A.E,阿联酋,拉各斯,尼日利亚,美国

    在这里,结果中缺少迪拜。

    由于这种情况,具有大量专有名词的文档的合成精度很低

    我们也看到很多误报,例如,

    输入,

    您诚挚的 博世包装服务公司

    输出

    组织 - 您诚挚的博世包装服务公司

    此外,几乎所有缩写都标记为使用斯坦福的组织。

    有没有办法处理这种误报,以便我们只获得所需的输出?

    请建议。

    提前致谢。

    ARTI

0 个答案:

没有答案