在我试图实施的Character classes中,它说,
在这项工作中,推文使用三种类型的文本建模 表示。第一个是由词组加权的词袋模型 tf-idf(术语频率 - 逆文档频率)(部分 2.1.1)。第二个代表句子,通过平均所有单词的嵌入(在句子中),第三个代表a 通过对所有单词的加权单词嵌入求平均的句子, 单词的权重由tf-idf给出(Section 2.1.2)。
我不确定第三个表示,因为使用单词权重的加权单词嵌入由tf-idf给出。我甚至不确定它们是否可以一起使用。
答案 0 :(得分:7)
字嵌入的平均(可能加权)是有意义的,尽管取决于主算法和训练数据,这句话表示可能不是最好的。直觉如下:
另见this paper by Kenter et al。有一个nice post可以在不同的算法中对这两种方法进行比较,并得出结论:没有一种方法明显优于另一种:一些算法支持简单平均,一些算法在TF-IDF加权下表现更好。
答案 1 :(得分:5)