标签: python gensim word2vec doc2vec
如果我有一个嵌入向量,则可以使用similar_by_vector()找到最相似的词。
如果我从递归神经网络的输出中得到一系列向量,它们代表一个完整的句子,那么我可以通过为每个向量分别调用相似的_by_vector()来逐个词地重建一个句子,然后选择最上面的词,或者绘制从所有单词的相似度/余弦距离的概率分布中得出。
但是,单词在真实句子中并不是真正独立的。在重建过程中如何捕捉单词之间的关系,使重建的句子有意义?