对于50 mb数据,word2vec算法的向量维数应该是多少

时间:2016-04-06 05:05:51

标签: dimension training-data word2vec

我正在尝试用50 mb大小的数据训练我的模型。 我只是想知道是否有一个规则/算法来确定算法的维度大小。

1 个答案:

答案 0 :(得分:1)

我会假设一个50mb的文本文件,大约500,000个句子或500万个令牌。 它的方式太小,无法训练有意义的嵌入,但是这里有你可以参考的经验数据(训练有数十亿只令牌)。

enter image description here

来源:https://nlp.stanford.edu/pubs/glove.pdf