什么是'话语矢量'在单词/句子嵌入中意味着什么?

时间:2018-01-26 08:54:03

标签: nlp words embedding

当我阅读下面的论文时,我得到了一个问题,即话语向量是什么。以及如何组成这个载体。

  • S.Arora(TACL 2016):基于PMI的词嵌入的潜变量模型方法
  • S.Arora(ICLR 2017):句子嵌入的一个简单但难以击败的基线

在本文中,它说, "话语向量代表正在谈论的内容"

但我不清楚。

总之,我的问题是

  1. 话语向量意味着什么;是主题还是上下文还是其他什么?
  2. 那么如果是这样,我们如何创建这个向量?
  3. 这个载体是如何学习的?还是修好了?

1 个答案:

答案 0 :(得分:1)

下面是Sanjeev Arora的论文“词义的线性代数结构及其对多义性的应用”中的段落。

它假定在语料库的每个点上都有一个被称为“话语”的微观主题(“正在谈论什么”) 从ℜ d 中单位向量的连续性中得出。该模型的参数包括每个单词w的向量V w ∈ℜ d 。每个话语“ c”都定义了单词Pr [w | w c] ∝ exp(c·V w )。该模型假定语料库是由c在ℜ d 中在单位球面上的缓慢几何随机游走生成的:当游走在c时,i.i.d会发出一些单词。来自分布(2)的样本,由于其对数线性形式,在余弦相似度中强烈偏爱接近c的单词。

每个话题都是话题。作者已将论文的主题固定为2000。

一种固定话语向量的方法可能是相邻单词向量的简单平均值作为估计值(MLE)。 可以通过对相邻单词进行加权组合(通常是tf-idf)来改善这种幼稚的句子嵌入。

纸使用窗口中单词嵌入的加权平均值,较小的权重用于更频繁的单词(让人联想到tf-idf),称为SIF嵌入,以便更好地估计话语。