标签: dimension training-data word2vec
我正在尝试用50 mb大小的数据训练我的模型。 我只是想知道是否有一个规则/算法来确定算法的维度大小。
答案 0 :(得分:1)
我会假设一个50mb的文本文件,大约500,000个句子或500万个令牌。 它的方式太小,无法训练有意义的嵌入,但是这里有你可以参考的经验数据(训练有数十亿只令牌)。
来源:https://nlp.stanford.edu/pubs/glove.pdf