我正在使用Word2Vec,其中包含大约11,000,000个令牌的数据集,这些令牌可以同时进行单词相似性(作为下游任务的同义词提取的一部分)但我不太清楚我应该使用多少维度Word2Vec。根据令牌/句子的数量,是否有人对要考虑的维度范围有一个很好的启发式算法?
答案 0 :(得分:17)
典型间隔在100-300之间。我会说你需要至少50D以达到最低的准确度。如果选择较少数量的尺寸,您将开始失去高维空间的属性。如果培训时间对您的应用来说不是什么大问题,我会坚持使用200D尺寸,因为它提供了很好的功能。 300D可以获得极高的精度。在300D之后,单词功能不会显着改善,并且训练将非常缓慢。
我不知道高维空间中的维度选择的理论解释和严格界限(并且可能没有针对该应用程序的独立解释),但我会将您引用到Pennington et. al,图2a其中x轴显示矢量尺寸和y轴显示获得的精度。这应该为上述论证提供经验证明。
答案 1 :(得分:0)
我认为word2vec的维度数量取决于您的应用程序。最经验值约为100.然后它可以表现良好。
答案 2 :(得分:0)
尺寸数反映了过度/不足的配合。 100-300尺寸是常识。从一个数字开始,然后检查测试集与训练集的准确性。尺寸尺寸越大,越容易适合训练集,并且在测试中表现不佳。如果您在训练集上具有较高的精度而在测试集上具有较低的精度,则需要调整此参数,这意味着尺寸过大,减小尺寸可能会解决模型的过拟合问题。