Question

我正在尝试为斯坦福CoreNLP培训NER模型。但是一旦达到训练过程的第8或第9次迭代，它就会停止，并且没有其他任何事情发生。

语料库使用IOB / BIO编码进行注释，如下所示：

How O
to  O
play    O
a   O
video   O
in  O
Java    B-Fram
Swing   I-Fram
?   O

我的属性文件：

trainFile = C:\\Data\\corpora\\train\\train.tsv
serializeTo = C:\\Data\\ner-model.ser.gz

map = word=0,answer=1

useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
useDisjunctive=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=2
maxRight=2
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useGazettes=true
sloppyGazette=true
gazette=C:\\Data\\gazetteers\\gaz1.txt,C:\\Data\\gazetteers\\gaz2.txt
entitySubclassification=bio

我的地名录内容：

Fram LiteDB
Fram RavenDB
Fram MongoDB
Fram Cassandra
Fram Couchbase
...

培训过程的命令：

java -mx8g -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop C:\\Data\\ner.prop -readerAndWriter edu.stanford.nlp.sequences.CoNLLDocumentReaderAndWriter

为什么训练过程会突然停止？这与错误的属性有关吗？或者地名录是否必须与带注释的语料库具有相同的标签？

最后，我希望实体标记为＆＃34; Fram＆＃34;而不是＆＃34; B-Fram＆＃34;或者＆＃34; I-Fram＆＃34;。怎么可能？

提前谢谢。

IOB编码的NER模型训练失败（Stanford CoreNLP）

0 个答案: