您好我正在探索NER图书馆,以解析一些财务文件,公司文件 - 招股说明书等。
这些文档包含公司名称等信息 - 一些关键字和与之关联的值。
我想将这些标记为3个不同的实体。
所以说比如说我有一个短语或句子。 ABC公司于2017年1月1日提交以下内容......我们将提供300,000,000美元2014年到期浮动利率票据本金总额(“2014年浮动利率票据”),400,000,000美元本金总额2.100%应付票据到2014年(“ 2014年固定利率票据“),400,000,000美元本金总额3.100%应付票据2016年(”2016年票据“),以及400,000,000美元本金总额4.625%到期2021年到期(”2021票据“)。
我想将ABC公司标记为组织。 主要总量作为关键词和 数值为$ 400000000。
我尝试通过http://corenlp.run/运行一些示例,它对于关键字和日期的数量非常有效 - 但是对于组织名称,我并不总是标记它。这是NER的标准用例,无论如何可能是组织名称的情况。
答案 0 :(得分:0)
是的,NER模型应该在文本中标记组织。请注意,模型是根据与您的数据不同的句子进行训练的,因此性能会下降。此外,该模型没有100%的召回率,因此它会不时出错。