StanfordNER分类器是如何构建的

时间:2016-01-22 14:50:20

标签: machine-learning nlp classification stanford-nlp named-entity-recognition

我正在使用StanfordNER分类器。

有4个分类器
english.all.3class.distsim.crf.ser.gz
english.muc.7class.distsim.crf.ser.gz
english.conll.4class.distsim.crf.ser.gz
example.serialized.ncc.ncc.ser.gz

这些分类器是如何构建的?由于每个都是基于不同的语料库,这是我的猜测

  1. 在语料库上训练机器学习分类器,如SVMOVR(对于多标签案例),以检测ORGANIZATIONPERSON,{等实体{1}}等。这意味着训练数据将是语料库中文档的整个文本。对于该文本,我们明确指出LOCATION s,ORGANIZATIONPERSON s。因此,分类器将能够预测这些实体。

  2. 训练机器学习分类器,将POS标签与LOCATIONORGANIZATIONPERSON等实体相关联。例如,可以训练分类器来预测哪些专有名词应该是LOCATION

  3. 这是正确的大局吗?我只想弄清楚如何建立自己的NER。

1 个答案:

答案 0 :(得分:4)

是的,模型受过监督数据的培训。它们是一阶CRF,它进行多类概率序列分类(因此不是OVR,不是SVM)。您可以在the Stanford NER page上找到NER和Stanford NER的介绍。