应用错误收集

下面是Sanjeev Arora的论文“词义的线性代数结构及其对多义性的应用”中的段落。

它假定在语料库的每个点上都有一个被称为“话语”的微观主题（“正在谈论什么”） 从ℜ^d中单位向量的连续性中得出。该模型的参数包括每个单词w的向量V _w∈ℜ^d。每个话语“ c”都定义了单词Pr [w | w c] ∝ exp（c·V _w）。该模型假定语料库是由c在ℜ^d中在单位球面上的缓慢几何随机游走生成的：当游走在c时，i.i.d会发出一些单词。来自分布（2）的样本，由于其对数线性形式，在余弦相似度中强烈偏爱接近c的单词。

每个话题都是话题。作者已将论文的主题固定为2000。

一种固定话语向量的方法可能是相邻单词向量的简单平均值作为估计值（MLE）。可以通过对相邻单词进行加权组合（通常是tf-idf）来改善这种幼稚的句子嵌入。

纸使用窗口中单词嵌入的加权平均值，较小的权重用于更频繁的单词（让人联想到tf-idf），称为SIF嵌入，以便更好地估计话语。

什么是＆＃39;话语矢量＆＃39;在单词/句子嵌入中意味着什么？

1 个答案: