Standford CoreNLP的附加命名实体识别模型?

时间:2015-08-06 21:50:18

标签: nlp stanford-nlp

Stanford CoreNLP库与模型一起打包,以识别时间,位置,组织,人员,金钱,百分比和日期。其他团体是否还有其他可识别其他内容的通用模型?

另外,如果我们要训练a new model识别只是乐队名称(例如),我们是否可以运行我们的新模型以及打包的模型,或者必须如果我们想要这样做,训练新模型一起识别时间,位置,组织,人物,金钱,百分比,日期和乐队?文档确实说现有模型本身无法扩展。

1 个答案:

答案 0 :(得分:3)

您绝对可以训练CRFClassifier或RegexNER来识别波段名称,并将其与其他NER标记器合并,您的模块可以专注于波段名称。

我可能会建议使用RegexNER作为乐队名称。这是链接:

http://nlp.stanford.edu/software/regexner/

基本上,您只需使用波段名称或与波段名称匹配的正则表达式创建一个文件,然后您可以使用标准管道根据自定义工作标记文本。

以下是一个示例命令:

java -mx1g -cp "*:." edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators "tokenize,ssplit,pos,lemma,ner,regexner" -file sample_text.txt -regexner.mapping my-band-regexes.txt