我在一些文章中学到了(Tomas Mikolov ......),为句子形成向量的更好方法是连接单词 - 向量。
但由于我的数学笨拙,我仍然不确定细节。
例如,
假设单词向量的维数为m;那个句子有n个单词。
连接操作的正确结果是什么?
是1 x m * n的行向量吗?或m×n的矩阵?
请告知
感谢
答案 0 :(得分:2)
至少有三种常用方法可以组合嵌入向量; (a)求和,(b)求和&平均或(c)连接。所以在你的情况下,通过连接,这会给你一个1 x m*a
向量,其中a
是句子的数量。在其他情况下,向量长度保持不变。请参阅gensim.models.doc2vec.Doc2Vec
,dm_concat
和dm_mean
- 它允许您使用这三个选项中的任何一个[1,2]。
[1] http://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.LabeledLineSentence
[2] https://github.com/piskvorky/gensim/blob/develop/gensim/models/doc2vec.py