我有一个训练有素的doc2vec模型,该模型可为基于单词和其他文档的相似文档查找提供良好的结果。我现在正在考虑添加单词的加减法以基于这些推断的向量来查找文档。加法似乎很好,但是减法会产生差的结果。即,单词相似度只有40%相似度,并且与预期相距不远(与加法相反)
我的过程如下:
使用model.infer_vector(doc_words = [word])
减去向量
找到与向量model.most_similar(positive=[resultantvec])
根据相似词查找相似文档
关于如何改进的任何想法?