应用错误收集

如何为几句话获得高度语境化的向量？我想如果我使用一个小语料库（其中只有几个句子存在）来训练doc2vec，那么训练好的矢量就无法训练有素。那么如何以有效的方式添加上下文呢？

我最初的想法是将我感兴趣的句子添加到大众语料库（例如维基百科）。然后检索相应的向量。尽管如此，我认为这种方法可能很昂贵，因为算法必须考虑语料库中的所有句子（例如数百万，但它可能是逻辑假设）。

谢谢。