我需要检测给定文本中的公司名称。我已经训练过CRFClassifier,包括我的训练数据和公报数据。在对分类器进行训练之后,当我使用测试数据时,识别出没有正确检测到的公司。如果我提供的公司名称是培训数据的一部分,它能够识别,如果我给出任何公司名称是公报文件的一部分,它就无法识别这些实体。你能帮助我吗,我怎么能继续朝正确的方向去识别实体呢。
我正在使用的属性文件看起来像这样
trainFile =训练data.tsv
serializeTo =定制分类-model.ser.gz
地图=字= 0,答案= 1
useClassFeature =真
useWord =真
useNGrams =真
noMidNGrams =真
maxNGramLeng = 6
usePrev =真
useNext =真
useSequences =真
usePrevSequences =真
maxLeft = 1
useTypeSeqs =真
useTypeSeqs2 =真
useTypeySequences =真
wordShape = chris2useLC
useDisjunctive =真
useGazettes =真
公报= gazette.txt
cleanGazette =真
示例培训数据文件
华宝公司 Pincus公司有O
同意O
到O
获得O
North O
Carolina O
基于O
服务O
Gazzette文件数据文件
ACON COMPANY
投资公司
LLS COMPANY
发布公司
Oak COMPANY
能源公司
Capital COMPANY
Merrill COMPANY
林奇公司
国际公司
永恒之塔公司
直接公司
新加坡公司
答案 0 :(得分:0)
您的公报文件格式不正确。
示例条目应该是:
{{1}}
NER常见问题解答页面上有更详细的答案: