stanford-nlp - NER识别自定义实体

我需要检测给定文本中的公司名称。我已经训练过CRFClassifier，包括我的训练数据和公报数据。在对分类器进行训练之后，当我使用测试数据时，识别出没有正确检测到的公司。如果我提供的公司名称是培训数据的一部分，它能够识别，如果我给出任何公司名称是公报文件的一部分，它就无法识别这些实体。你能帮助我吗，我怎么能继续朝正确的方向去识别实体呢。

我正在使用的属性文件看起来像这样

trainFile =训练data.tsv

serializeTo =定制分类-model.ser.gz

地图=字= 0，答案= 1

useClassFeature =真

useWord =真

useNGrams =真

noMidNGrams =真

maxNGramLeng = 6

usePrev =真

useNext =真

useSequences =真

usePrevSequences =真

maxLeft = 1

useTypeSeqs =真

useTypeSeqs2 =真

useTypeySequences =真

wordShape = chris2useLC

useDisjunctive =真

useGazettes =真

公报= gazette.txt

cleanGazette =真

示例培训数据文件

华宝公司

Pincus公司

有O

同意O

到O

获得O

North O

Carolina O

基于O

服务O

Gazzette文件数据文件

ACON COMPANY

投资公司

LLS COMPANY

发布公司

Oak COMPANY

能源公司

Capital COMPANY

Merrill COMPANY

林奇公司

国际公司

永恒之塔公司

直接公司

新加坡公司

NER识别自定义实体

1 个答案: