我正在处理文本语料库中命名实体的注释任务。我在文档1999 Named Entity Recognition Task Definition中找到了指南。在该文件中,有关于人员头衔的指导方针,特别是以下一个:诸如“先生”之类的标题和诸如“总统”之类的角色名称不被视为人名的一部分。例如,在“先生Harry Schearer“或”Harry Schearer总统“,只有Harry Schearer应该被标记为人。
在斯坦福大学的NER中,有许多例子包括人物标签(韦斯顿船长,佩里先生等)。见here他们给出的公报的例子。在他们对人物标签的看法中,似乎甚至是“太太。和贝茨小姐“应该被标记为一个人。
问题:最普遍接受的指南是什么?
答案 0 :(得分:1)
如果您从这里下载Stanford CoreNLP 3.5.2:http://nlp.stanford.edu/software/corenlp.shtml
并运行此命令:
java -Xmx6g -cp "*:." edu.stanford.nlp.pipeline.StanfordCoreNLP -ssplit.eolonly -annotators tokenize,ssplit,pos,lemma,ner -file ner_examples.txt -outputFormat text
(假设您在ner_examples.txt中添加了一些示例句子,每行一个句子)
标记的标记将显示在:ner_examples.txt.out
中您可以尝试一些句子,看看我们当前的NER系统如何处理不同的情况。该系统是针对没有标记为PERSON的标题的数据进行培训的,因此我们当前的系统通常不会将标题标记为PERSON。