NLP - Word表示

时间:2015-05-26 20:03:32

标签: machine-learning nlp artificial-intelligence

我正在研究一种Word表示算法,类似于Word2VecGloVe。我被要求使其更具动态性,以便可以将新单词添加到词汇表和新文档中即使在创建了表示(向量)之后,也可以提交给程序。

问题是,我怎么知道我的代表是否有效?我如何知道它是否真正捕获了每个单词的含义?如何将我的表示与其他现有的向量空间模型进行比较?

截至目前,我正在进行以下测试以检查单词向量的质量:

距离测试:

向量之间的余弦距离是否反映了单词之间的语义距离?

类比测试:

这种表述是否可以用来解决诸如“王是女王是什么样的________”之类的问题,(答案应该是女性)

挑出奇怪的一个:

可以使用向量来选择给定单词列表中的奇数单词。如果输入是{“cat”,“dog”,“phone”},输出应该是“phone”?

我应该做些什么来检查载体的质量?什么其他任务是预期能够做的单词向量?矢量空间模型有基准吗?

1 个答案:

答案 0 :(得分:2)

您的测试听起来非常合理 - 它们是用于测试单词嵌入质量的研究论文中常用的评估任务。

此外,网站www.wordvectors.org可以让您更好地了解您的向量如何衡量。它允许您上传嵌入,生成绘图,提供与词对相似性排名的相关性,并将您的嵌入与之前研究中的预训练向量进行比较。您可以在accompanying paper中找到更详细的说明。