NER的线性CRF与Word2Vec

时间:2017-07-13 21:35:31

标签: nlp named-entity-recognition

我已经完成了大量关于Linear CRF和Word2Vec的阅读,并想知道哪一个最适合做命名实体识别。我使用斯坦福NER(这是一个线性CRF实现)训练我的模型,精度达到85%。我知道Word2vec将相似的单词组合在一起,但它是一个很好的模型来做NER吗?

2 个答案:

答案 0 :(得分:4)

CRF和word2vec是苹果和橘子,所以比较它们并没有多大意义。

CRF用于序列标记问题,如NER。给定一系列项目,表示为特征并与标签配对,他们将学习一个模型来预测新序列的标签。

Word2vec的单词嵌入是单词的表示,作为浮点数的向量。他们不会自己预测任何事情。您甚至可以使用单词向量在CRF中构建要素,尽管将它们与LSTM等神经模型一起使用更为典型。

有些人使用带有CRF的单词向量成功。有关在CRF中使用单词向量的一些讨论,请参阅herehere

请注意,对于许多标准CRF实现,功能应该是二进制或分类,而不是连续的,因此您通常不能像其他功能一样推送单词向量。

如果您想知道哪个更适合您的用例,唯一的方法就是尝试两者。

答案 1 :(得分:0)

对于典型的NER任务,线性CRF是一种流行的方法,而Word2Vec是一种可用于改善CRF系统性能的功能。

在2014年paperGitHub)中,作者比较了在基于CRF的NER系统中整合Word2Vec输出的多种方式,包括密集嵌入集成嵌入集群嵌入,以及一种新颖的原型方法。

我在我的特定领域的NER项目中实现了原型构思,它对我来说非常好用。