如何在斯坦福NER中将单词转换为向量

时间:2017-07-20 21:06:28

标签: stanford-nlp word2vec

我正在寻找斯坦福大学的NER,并想知道这些词是如何表现的。当使用线性CRF训练模型时,它们是否使用Word2Vec或Glove转换为矢量。

更多的研究表明,数据存储在CRFDatum结构中。任何人都可以详细说明这个吗?

1 个答案:

答案 0 :(得分:1)

好吧,现在我知道老派AI人的感受......

回到旧时代(包括建立NER系统时),在神经网络起飞之前,统计ML使用定制的特征化器将离散输出转换为矢量。对于语言而言,这通常会导致一个非常长但很稀疏的单热特征向量。例如,特征化器可以为每个单词分配一个热表示:1对应于该单词的索引,而其他地方为零。对于NER,这些功能通常包括单词中的字符(单热编码),长度为$ k $的前缀和后缀,单词形状,词性标记等。

在斯坦福大学的代码中,这些稀疏向量通常表示为一种或另一种形式的Counter个对象,然后传递到Datum对象并转换为更密集的Dataset对象,它被送入优化器(通常是QNMinimizer,实现L-BFGS)。