我正在使用斯坦福大学的一个项目。我的训练和测试文件都是BIO格式。我使用以下命令训练了ner:
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop <path_to_properties_file>
训练后,我使用以下命令注释测试文件:
java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier <model_file> -textFile <textFile> -outputformat inlineXML
但是我得到两种输出符号:
第一个是:
<B-Class1>protease</B-Class1>
<I-Class1>inhibitors</I-Class1>
和另一个:
<B-Class1>protease
inhibitors</B-Class1>
第二个不是错。它不应该像第一个一样吗? 如何只获得第一种类型?