训练非英语的Stanford NER模型

时间:2018-10-09 12:43:29

标签: stanford-nlp ner french

我看到一些有关培训斯坦福NER的其他语言的帖子。

例如:https://blog.sicara.com/train-ner-model-with-nltk-stanford-tagger-english-french-german-6d90573a9486

但是,斯坦福大学CRF分类器使用了一些依赖于语言的功能(例如:部分演讲标签)。

我们真的可以使用相同的Jar文件训练非英语模型吗? https://nlp.stanford.edu/software/crf-faq.html

2 个答案:

答案 0 :(得分:1)

训练NER分类器与语言无关。您必须提供高质量的培训数据并创建有意义的功能。关键是,并非所有功能对于每种语言都同样有用。例如,大写字母是英文命名实体的良好指示。但是在德语中,所有名词都是大写的,这使此功能不太有用。

在Stanford NER中,您可以决定分类器必须使用的功能,因此可以禁用POS标签(实际上,默认情况下它们是禁用的)。当然,您也可以使用所需的语言提供自己的POS标签。

我希望我能澄清一些事情。

答案 1 :(得分:1)

我同意先前的评论,即NER分类模型与语言无关。

如果您对培训数据有疑问,我可以建议您link使用大量带标签的不同语言的数据集。

如果您想尝试其他模型,建议使用ESTNLTK-爱沙尼亚语言的库,但它可能适合独立于语言的ner模型(documentation)。 此外,here还提供了有关如何使用spaCy训练神经网络模型的示例。

我希望它会有所帮助。祝你好运!