NER识别自定义实体

时间:2017-08-07 07:03:33

标签: stanford-nlp named-entity-recognition

我需要检测给定文本中的公司名称。我已经训练过CRFClassifier,包括我的训练数据和公报数据。在对分类器进行训练之后,当我使用测试数据时,识别出没有正确检测到的公司。如果我提供的公司名称是培训数据的一部分,它能够识别,如果我给出任何公司名称是公报文件的一部分,它就无法识别这些实体。你能帮助我吗,我怎么能继续朝正确的方向去识别实体呢。

我正在使用的属性文件看起来像这样

trainFile =训练data.tsv

serializeTo =定制分类-model.ser.gz

地图=字= 0,答案= 1

useClassFeature =真

useWord =真

useNGrams =真

noMidNGrams =真

maxNGramLeng = 6

usePrev =真

useNext =真

useSequences =真

usePrevSequences =真

maxLeft = 1

useTypeSeqs =真

useTypeSeqs2 =真

useTypeySequences =真

wordShape = chris2useLC

useDisjunctive =真

useGazettes =真

公报= gazette.txt

cleanGazette =真

示例培训数据文件

华宝公司

Pincus公司

有O

同意O

到O

获得O

North O

Carolina O

  • 0

基于O

服务O

Gazzette文件数据文件

ACON COMPANY

投资公司

LLS COMPANY

发布公司

Oak COMPANY

能源公司

Capital COMPANY

Merrill COMPANY

林奇公司

国际公司

永恒之塔公司

直接公司

新加坡公司

1 个答案:

答案 0 :(得分:0)

您的公报文件格式不正确。

示例条目应该是:

{{1}}

NER常见问题解答页面上有更详细的答案:

https://nlp.stanford.edu/software/crf-faq.html#gazette