应用错误收集

我正在研究一种Word表示算法，类似于Word2Vec和GloVe。我被要求使其更具动态性，以便可以将新单词添加到词汇表和新文档中即使在创建了表示（向量）之后，也可以提交给程序。

问题是，我怎么知道我的代表是否有效？我如何知道它是否真正捕获了每个单词的含义？如何将我的表示与其他现有的向量空间模型进行比较？

截至目前，我正在进行以下测试以检查单词向量的质量：

距离测试：

向量之间的余弦距离是否反映了单词之间的语义距离？

类比测试：

这种表述是否可以用来解决诸如“王是女王是什么样的________”之类的问题，（答案应该是女性）

挑出奇怪的一个：

可以使用向量来选择给定单词列表中的奇数单词。如果输入是{“cat”，“dog”，“phone”}，输出应该是“phone”？

我应该做些什么来检查载体的质量？什么其他任务是预期能够做的单词向量？矢量空间模型有基准吗？