word2vec - vocab大小与word2vec中的向量大小

最佳实践是根据您的真实最终任务对其进行测试。

对于word2vec来说，这是一个难以置信的小语料库，而且词汇量也很小。它可能根本不合适，因为它可以从大量多样的培训集中获得功能。

但是从好的方面来说，您可以非常快速地使用不同的参数进行大量试验！

您绝对不能使用像词汇表一样大的矢量维数（181），甚至不能非常接近。在这种情况下，该模型肯定会“过拟合”-仅独立记住每个单词的效果，而无需进行必要的“拔河”权衡，从而迫使单词彼此接近/偏离。，从而创建word2vec模型的特殊值/一般性。

我非常宽松的经验法则是研究词汇量平方根周围的量纲。而且，4的倍数在底层数组例程中往往效果最好（至少在性能至关重要的情况下，而对于如此小的数据集可能不是这样）。因此，我会先尝试12或16个维度，然后根据对实际任务的定量质量评估来探索其他较低/较高的值。

但是，同样，您正在使用的数据集是如此之小，除非您的“句子”实际上很长，否则word2vec对于没有更多数据的人来说可能是一种非常弱的技术。