应用错误收集

时间：2017-07-13 21:35:31

标签： nlp named-entity-recognition

我已经完成了大量关于Linear CRF和Word2Vec的阅读，并想知道哪一个最适合做命名实体识别。我使用斯坦福NER（这是一个线性CRF实现）训练我的模型，精度达到85％。我知道Word2vec将相似的单词组合在一起，但它是一个很好的模型来做NER吗？

答案 0 :(得分：4)

CRF和word2vec是苹果和橘子，所以比较它们并没有多大意义。

CRF用于序列标记问题，如NER。给定一系列项目，表示为特征并与标签配对，他们将学习一个模型来预测新序列的标签。

Word2vec的单词嵌入是单词的表示，作为浮点数的向量。他们不会自己预测任何事情。您甚至可以使用单词向量在CRF中构建要素，尽管将它们与LSTM等神经模型一起使用更为典型。

有些人使用带有CRF的单词向量成功。有关在CRF中使用单词向量的一些讨论，请参阅here和here。

请注意，对于许多标准CRF实现，功能应该是二进制或分类，而不是连续的，因此您通常不能像其他功能一样推送单词向量。

如果您想知道哪个更适合您的用例，唯一的方法就是尝试两者。

答案 1 :(得分：0)

对于典型的NER任务，线性CRF是一种流行的方法，而Word2Vec是一种可用于改善CRF系统性能的功能。

在2014年paper（GitHub）中，作者比较了在基于CRF的NER系统中整合Word2Vec输出的多种方式，包括密集嵌入，集成嵌入，集群嵌入，以及一种新颖的原型方法。

我在我的特定领域的NER项目中实现了原型构思，它对我来说非常好用。