IOB编码的NER模型训练失败(Stanford CoreNLP)

时间:2017-02-18 18:31:58

标签: machine-learning nlp named-entity-recognition stanford-nlp

我正在尝试为斯坦福CoreNLP培训NER模型。但是一旦达到训练过程的第8或第9次迭代,它就会停止,并且没有其他任何事情发生。

语料库使用IOB / BIO编码进行注释,如下所示:

How O
to  O
play    O
a   O
video   O
in  O
Java    B-Fram
Swing   I-Fram
?   O

我的属性文件:

trainFile = C:\\Data\\corpora\\train\\train.tsv
serializeTo = C:\\Data\\ner-model.ser.gz

map = word=0,answer=1

useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
useDisjunctive=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=2
maxRight=2
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useGazettes=true
sloppyGazette=true
gazette=C:\\Data\\gazetteers\\gaz1.txt,C:\\Data\\gazetteers\\gaz2.txt
entitySubclassification=bio

我的地名录内容:

Fram LiteDB
Fram RavenDB
Fram MongoDB
Fram Cassandra
Fram Couchbase
...

培训过程的命令:

java -mx8g -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop C:\\Data\\ner.prop -readerAndWriter edu.stanford.nlp.sequences.CoNLLDocumentReaderAndWriter

为什么训练过程会突然停止?这与错误的属性有关吗?或者地名录是否必须与带注释的语料库具有相同的标签?

最后,我希望实体标记为" Fram"而不是" B-Fram"或者" I-Fram"。怎么可能?

提前谢谢。

0 个答案:

没有答案