Stanford CoreNLP库与模型一起打包,以识别时间,位置,组织,人员,金钱,百分比和日期。其他团体是否还有其他可识别其他内容的通用模型?
另外,如果我们要训练a new model识别只是乐队名称(例如),我们是否可以运行我们的新模型以及打包的模型,或者必须如果我们想要这样做,训练新模型一起识别时间,位置,组织,人物,金钱,百分比,日期和乐队?文档确实说现有模型本身无法扩展。
答案 0 :(得分:3)
您绝对可以训练CRFClassifier或RegexNER来识别波段名称,并将其与其他NER标记器合并,您的模块可以专注于波段名称。
我可能会建议使用RegexNER作为乐队名称。这是链接:
http://nlp.stanford.edu/software/regexner/
基本上,您只需使用波段名称或与波段名称匹配的正则表达式创建一个文件,然后您可以使用标准管道根据自定义工作标记文本。
以下是一个示例命令:
java -mx1g -cp "*:." edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators "tokenize,ssplit,pos,lemma,ner,regexner" -file sample_text.txt -regexner.mapping my-band-regexes.txt