应用错误收集

时间：2017-12-11 20:30:16

标签： deep-learning word2vec word-embedding pre-trained-model

我有两个不同的单词嵌入预训练模型，我希望将它们组合在一起，以便一个模型中的缺失单词可以被另一个模型称赞（如果另一个模型具有第一个模型中缺少的单词）。但是这些向量在模型中具有不同的维度。第一个模型向量为300维，第二个模型向量为1000维。

我可以简单地保留前300个尺寸并丢弃第二个尺寸中的其余尺寸（700）并构建一个300尺寸的组合模型吗？

答案 0 :(得分：2)

由于这两个模型在不同的时间进行过训练，因此它们不会“语义对齐”，即使它们具有相同的维度。由于在训练的初始化中存在一些随机方面，因此不能直接比较两个独立的矢量集。拓扑方面，即高维空间中的向量之间的关系，很可能是相同的，但是来自对应于同一个词的两个独立向量集的两个向量不会位于相同的位置。

有维数降低算法可以将维数从1000减少到300（SVD，PCA，SOM，自动编码器），但正如我所提到的，这不会解决您的问题。

如果可能的话，我建议根据包含完整词汇的语料库重新训练模型。即使有一些奇特的方式与独立模型相结合，我也会认为你得到的东西会受到影响。