我需要帮助验证下面的培训步骤,我可以将分类器添加到-loadClassifier列表吗?
-loadClassifier sample-ner-model.ser.gz ,classifiers / english.all.3class.distsim.crf.ser.gz,classifiers/english.conll.4class.distsim.crf。 ser.gz,classifiers / english.muc.7class.distsim.crf.ser.gz \
sample.txt的
周日,由于美联储官员和主要金融机构领导人继续聚集在一起试图完成拯救受灾银行的计划的紧急会议中,雷鬼兄弟这家陷入困境的投资银行的命运悬而未决。在纽约联邦储备银行举行的谈判中出现了几个可能的计划,由纽约联储主席蒂莫西·盖特纳和财政部长亨利·保尔森先生领导。步骤1令牌化
java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer sample.txt> sample.tok
在 命运 的 雷曼 兄弟 , 该 陷入困境 投资 银行 , 鸿 在 该 平衡
。 。
会长 的 该 新 纽约 美联储 , 和 金库 秘书 亨利 M. 保尔森 小
第2步分类
perl -ne' chomp;打印" $ _ \ tO"' sample.tok> sample.tsv
0 命运0 0 雷曼0 兄弟0 ,0 0 陷入困境0 投资0 银行0 ,0 挂0 在0 0 平衡0 。 。 。 总统0 0 0 新0 约克0 美联储0 ,0 和0 财政部0 秘书0 亨利0 M. 0 保尔森0 小.0 。 0
步骤3调整属性(sample.prop)
# location of the training file
trainFile = sample.tsv
# location where you would like to save (serialize) your
# classifier; adding .gz at the end automatically gzips the file,
# making it smaller, and faster to load
serializeTo = sample-ner-model.ser.gz
. . .
useTypeySequences=true
wordShape=chris2useLC
步骤4修改黄金标准(sample.tsv)
0 命运0 0 雷曼ORG ORG兄弟 ,0 0 陷入困境0 投资0 银行0 ,0 挂0 在0 0 平衡0 。 。 。 总统0 0 0 新的ORG 约克ORG 美联储ORG ,0 和0 财政部PERS 秘书PERS 亨利PERS M. PERS 保尔森PERS 小PERS 。 0
第4步训练
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop sample.prop
步骤5测试和验证
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier sample-ner-model.ser.gz -testFile sample.tsv
生产可能:
java -mx1g edu.stanford.nlp.ie.NERClassifierCombiner -textFile sample.txt -ner.model \ -loadClassifier分类器/ english.all.3class.distsim.crf.ser.gz,classifiers/english.conll.4class.distsim.crf.ser.gz,classifiers/english.muc.7class.distsim.crf.ser.gz \ -outputFormat tabbedEntities -textFile sample.txt> sampleNew.tsv
答案 0 :(得分:0)
这对我来说似乎是正确的。
是的,如果您使用Stanford CoreNLP构建新模型,您只需将其添加到列表中即可。
请注意,模型按顺序运行,并且先前列表标记中的早期NER标记符,然后以后的模型不能覆盖由先前的标记写入的标记(例如ORG,PER)(当然除了O)。所以基本上你把模型放在一边很重要,靠近前面优先。
此外,ner.combinationMode = HIGH_RECALL将允许列表中的每个分类器应用其所有标记。 ner.combinationMode = NORMAL表示只应用标签的第一个分类器(例如ORG,PER)可以应用它。您可以在.prop文件中设置ner.combinationMode。