我正在使用regexner模块来创建一些自定义" TITLE"但所发生的一切都是所谓的“人”#34;被识别为"组织",后面跟着这些自定义标题。
例如:
sentence_text,tokens,lemmas,ner_tags"董事会主席Bienaime Jean-Jacques在2016年10月13日提交了价值460万美元的BMRN。" {董事会主席, Bienaime,让雅克,文件,若要,出售,$,4.6,M的,BMRN,上,10/13/16,}"" {主席的,所述,局, Bienaime,让雅克,文件,到,出售,$,4.6,米,的,bmrn,上,10/13/16,}"" {标题,标题,标题,标题, O,O,O,O,O,钱,钱,钱,O,STOCK,O,DATE,O-}" " BioMarin Pharmaceutical Inc(BMRN)的Chie Bienaime Jean-Jacques于2016年10月13日提交了144表格,美国证券交易委员会报告了以下所有权变更:交易日期交易类型股票金额每股价格值---- ------------ ------------------------------------ - ----------- --------------- ------------ 10/13/2016意图出售* 53,125 $ 86.98 $ 4.6 M * - 根据规则10b5-1自动交易计划。" {Chmn,Bienaime,Jean-Jacques,of BioMarin,Pharmaceutical,Inc,-LRB-,BMRN,-RRB-,提交,一,形态144,在10/13/2016年,与中,,美国证券交易委员会,报告了,下面,变化,,所有权,:,交易,日期,交易,类型,分享,数量,价格,每,共享价值,----------------,---------------------------- --------,-------------,---------------,----------- - ,10/13/2016年,意图,到,出售,,"" 53125"",$,86.98,$,4.6,M,的, - ,根据到,规则,的10b5-1,自动,交易,计划,}"" {C。 HMN,Bienaime,让雅克的,BioMarin公司,制药股份有限公司,-lrb-,BMRN,-rrb-,文件,一个,形式,144,上10/13/2016年,与,所述,仲,报告,的,跟随变化,在,所有权,:,交易,日期,交易,类型,股票,数量,价格,每,共享价值,----------------, - -----------------------------------,-------------, ---------------,------------ 10/13/2016年,意图,到,出售,,"& #34; 53125"",$,86.98,$,4.6,M,的, - ,依照以,规则,的10b5-1,自动,交易,计划,}&#。 34;," {TITLE,PERSON,PERSON,O,组织,组织,组织,O,STOCK,O,O,O,O,NUMBER,O,DATE,O,O,MISC,O,O, O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,数字,数字,数字,数字,数字,日期,O,O,O,O, NUMBER,钱,钱,钱,钱,钱,O,O,O,O,O,O,O,O,O,O-}" 董事会主席Gallagher Thomas C于2016年10月20日收购了267.7万美元的GPC。" {董事长,董事会成员,加拉格尔,Thomas,C,Buys,$,267.7,K,of GPC上,10/20/16,}"" {主席的,所述,局,Gallagher的,托马斯,C,买,$,267.7,K,的,GPC,上,10 /20/16,.}","{TITLE,TITLE,TITLE,TITLE,ORGANIZATION,ORGANIZATION,ORGANIZATION,O,MONEY,MONEY,MONEY,O,ORGANIZATION,O,DATE,O}& #34; {行政,执行,管理人员,陈一舟,文件,要,出售,$ 1.0,米,,YY上,9月29日/ 16,}"" {标题,标题,TITLE,O,O,O,O,O,钱,钱,钱,O,STOCK,O,DATE,O-}" " YY Inc(YY)的首席执行官陈周于2016年9月29日提交了144表格,美国证券交易委员会报告了以下所有权变更:交易日期交易类型股份金额每股价格价值------- --------- ------------------------------------ ----- -------- --------------- ------------ 9/29/2016意图出售18,550 $ 52.63 $ 1.0M表格144向证券交易委员会提交,以反映任何限制性股票持有人出售这些股票的信息。"," {CEO,Chen,Zhou,of YY,Inc,-LRB-,YY ,-RRB-日提交的一个,表格,144上,9月29日/ 2016年,与中,,美国证券交易委员会,报告了,下面,变化,,所有权,:,交易,日期,交易,类型,分享,数量,价格,每,共享价值,----------------,---------------------- --------------,-------------,---------------,----- ------- 9 /二千〇一十六分之二十九,意图,到,出售,"" 18550"",$,52.63,$,1.0,M的,形式,144,IS,提交与的,证券,和交易所,佣金,以反映的,信息的,有的持有人的,限制的股票,于销售,那些股,}""的{首席执行官陈一舟, ,YY,公司,-lrb-,YY,-rrb-,文件,一个,形式,144,上,29分之9/ 2016年,与,所述,仲,报告中,跟随,变更,在,所有权,: ,交易,日期,交易,类型,股票,数量,价格,每,共享价值,----------------,------------ ------------------------,-------------,----------- ----,------------ 9 /二千〇一十六分之二十九,意图,到,出售,"" 18550"",$, 52.63,$,1.0,m,则,形式,144是文件,用的,证券,并且,兑换,佣金,到,反射,在,信息的,任意,保持器的,受限制的,股票,到,出售,那些,共享}"" {TITLE,PERSON,PERSON,O,STOCK,组织,O,STOCK,O,O,O,O,NUMBER,O,DATE, O,O,MISC,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,数字,数字,数字,数字,数字,日期,O,O,O,数字,钱,钱,钱,钱,钱,O,O,数字,O,O,O,O,组织,组织,组织,组织,O,O,O,O, O,O,O,O,O,O,O,O,O,O,O-}"
最初我想在regexner.mapping文件中将这些名称定义为PERSON,但是有几个这样的实例,并且有可能进行扩展。 如何在令牌上定义正则表达式,因此如果TITLE后跟ORGANIZATION,则将ORGANIZATION替换为PERSON
例如:/ Match TITLE ORG / - > {替换为} - > / TITLE PERSON /
答案 0 :(得分:1)
我无法重新创建您的问题。
我制作了一个样本职位名称规则文件,只有一个职位名称:
chairman of the board TITLE MISC 1
我跑过这段文字:
Chairman of the Board Bienaime Jean-Jacques
我使用了这个命令:
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,regexner -file sample-sentence.txt -outputFormat text -regexner.mapping job_title.rules -regexner.ignorecase
我得到"董事会主席"作为" TITLE"我得到了Bienaime Jean-Jacques"作为一个人。
这一切都是用Stanford CoreNLP 3.7.0完成的。
另外,仅供参考的斯坦福CoreNLP 3.7.0附带大量职位名称。您可以使用regexner
注释器检测作业标题。默认情况下,此注释器将使用我们的职位列表。虽然我承认"董事会主席"不在列表中。我将为将来的版本添加它!
职位名称列在edu/stanford/nlp/models/kbp/regexner_caseless.tab
文件中,该文件位于english-kbp models jar中。可在此处获取:http://stanfordnlp.github.io/CoreNLP/download.html