加权单词嵌入是什么意思?

时间:2017-12-09 09:16:03

标签: machine-learning nlp word2vec tf-idf word-embedding

在我试图实施的Character classes中,它说,

  

在这项工作中,推文使用三种类型的文本建模   表示。第一个是由词组加权的词袋模型   tf-idf(术语频率    - 逆文档频率)(部分   2.1.1)。第二个代表句子,通过平均所有单词的嵌入(在句子中),第三个代表a   通过对所有单词的加权单词嵌入求平均的句子,   单词的权重由tf-idf给出(Section   2.1.2)。

我不确定第三个​​表示,因为使用单词权重的加权单词嵌入由tf-idf给出。我甚至不确定它们是否可以一起使用。

2 个答案:

答案 0 :(得分:7)

字嵌入的平均(可能加权)是有意义的,尽管取决于主算法和训练数据,这句话表示可能不是最好的。直觉如下:

  • 你可能想要处理不同长度的句子,因此平均(优于普通和)。
  • 句子中的某些单词通常比其他单词更有价值。 TF-IDF是单词值的最简单衡量标准。请注意,结果的比例不会改变。

另见this paper by Kenter et al。有一个nice post可以在不同的算法中对这两种方法进行比较,并得出结论:没有一种方法明显优于另一种:一些算法支持简单平均,一些算法在TF-IDF加权下表现更好。

答案 1 :(得分:5)

在此article或此one中,我们使用加权和,idf加权和词性加权以及使用两者的混合方法。混合方法是最好的,并帮助我们成为英语 - 西班牙语和阿拉伯语 - 阿拉伯语的SemEval 2017相似性任务的第一名(实际上我们因阿拉伯语而被正式排名第二,因为我们由于某些原因没有发送混合方法)。 p>

这很容易实现和使用,你在文章中有公式,但简而言之,句子的向量只是V = sum_i ^ k = 1 Posweight(w_i)* IDFWeight(w_i)* V_i < / p>