Standord-corenlp正则表达式和tokenregex对中文不起作用

时间:2018-08-10 02:36:13

标签: nlp stanford-nlp

我正在为中文的一些特定文本开发NER,并且我想添加一些规则以通过regexner或tokenregex提取实体,但是根据stanford-nlp网站上的文档,该规则不起作用。我不知道发生了什么以及如何解决。 这是规则文件:      基金经理^ ITITLE      投资总监^ ITITLE      金融工程^ ITITLE 我使用命令行界面来做到这一点: java -Xmx6g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-chinese.properties -annotators标记化,分割,pos,lemma,ner,regexner -regexner.mapping testrule.rules -file manager3.csv -outputFormat文本

在输出中,我注意到“经理”已被识别为带有TITLE标签的实体,但据我所知,根据我定义的规则,“基金经理”应使用TITLE进行标签,< / p>

即使我用自己的规则修改了cn_regexner_mapping.tab,“基金经理”仍然无法识别为TITLE标签的实体。

有人可以帮我吗?

0 个答案:

没有答案