Question

我正在使用StanfordNER分类器。

有4个分类器

english.all.3class.distsim.crf.ser.gz
english.muc.7class.distsim.crf.ser.gz
english.conll.4class.distsim.crf.ser.gz
example.serialized.ncc.ncc.ser.gz

这些分类器是如何构建的？由于每个都是基于不同的语料库，这是我的猜测

在语料库上训练机器学习分类器，如SVM和OVR（对于多标签案例），以检测ORGANIZATION，PERSON，{等实体{1}}等。这意味着训练数据将是语料库中文档的整个文本。对于该文本，我们明确指出LOCATION s，ORGANIZATION和PERSON s。因此，分类器将能够预测这些实体。
训练机器学习分类器，将POS标签与LOCATION，ORGANIZATION，PERSON等实体相关联。例如，可以训练分类器来预测哪些专有名词应该是LOCATION

这是正确的大局吗？我只想弄清楚如何建立自己的NER。

Answer 1

是的，模型受过监督数据的培训。它们是一阶CRF，它进行多类概率序列分类（因此不是OVR，不是SVM）。您可以在the Stanford NER page上找到NER和Stanford NER的介绍。