我正在使用StanfordNER分类器。
有4个分类器english.all.3class.distsim.crf.ser.gz
english.muc.7class.distsim.crf.ser.gz
english.conll.4class.distsim.crf.ser.gz
example.serialized.ncc.ncc.ser.gz
这些分类器是如何构建的?由于每个都是基于不同的语料库,这是我的猜测
在语料库上训练机器学习分类器,如SVM
和OVR
(对于多标签案例),以检测ORGANIZATION
,PERSON
,{等实体{1}}等。这意味着训练数据将是语料库中文档的整个文本。对于该文本,我们明确指出LOCATION
s,ORGANIZATION
和PERSON
s。因此,分类器将能够预测这些实体。
训练机器学习分类器,将POS标签与LOCATION
,ORGANIZATION
,PERSON
等实体相关联。例如,可以训练分类器来预测哪些专有名词应该是LOCATION
这是正确的大局吗?我只想弄清楚如何建立自己的NER。
答案 0 :(得分:4)
是的,模型受过监督数据的培训。它们是一阶CRF,它进行多类概率序列分类(因此不是OVR,不是SVM)。您可以在the Stanford NER page上找到NER和Stanford NER的介绍。