我正在尝试为斯坦福CoreNLP培训NER模型。但是一旦达到训练过程的第8或第9次迭代,它就会停止,并且没有其他任何事情发生。
语料库使用IOB / BIO编码进行注释,如下所示:
How O
to O
play O
a O
video O
in O
Java B-Fram
Swing I-Fram
? O
我的属性文件:
trainFile = C:\\Data\\corpora\\train\\train.tsv
serializeTo = C:\\Data\\ner-model.ser.gz
map = word=0,answer=1
useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
useDisjunctive=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=2
maxRight=2
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useGazettes=true
sloppyGazette=true
gazette=C:\\Data\\gazetteers\\gaz1.txt,C:\\Data\\gazetteers\\gaz2.txt
entitySubclassification=bio
我的地名录内容:
Fram LiteDB
Fram RavenDB
Fram MongoDB
Fram Cassandra
Fram Couchbase
...
培训过程的命令:
java -mx8g -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop C:\\Data\\ner.prop -readerAndWriter edu.stanford.nlp.sequences.CoNLLDocumentReaderAndWriter
为什么训练过程会突然停止?这与错误的属性有关吗?或者地名录是否必须与带注释的语料库具有相同的标签?
最后,我希望实体标记为" Fram"而不是" B-Fram"或者" I-Fram"。怎么可能?
提前谢谢。