应用错误收集

我正在为中文的一些特定文本开发NER，并且我想添加一些规则以通过regexner或tokenregex提取实体，但是根据stanford-nlp网站上的文档，该规则不起作用。我不知道发生了什么以及如何解决。这是规则文件：基金经理^ ITITLE 投资总监^ ITITLE 金融工程^ ITITLE 我使用命令行界面来做到这一点： java -Xmx6g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-chinese.properties -annotators标记化，分割，pos，lemma，ner，regexner -regexner.mapping testrule.rules -file manager3.csv -outputFormat文本

在输出中，我注意到“经理”已被识别为带有TITLE标签的实体，但据我所知，根据我定义的规则，“基金经理”应使用TITLE进行标签，< / p>

即使我用自己的规则修改了cn_regexner_mapping.tab，“基金经理”仍然无法识别为TITLE标签的实体。

有人可以帮我吗？

Standord-corenlp正则表达式和tokenregex对中文不起作用

0 个答案: