我有Doc2Vec's
模型,我想创建具有不同维度的Word2vec's
模型。如何使用Doc2Vec的模型vocab
进行快速培训?或者是feasible
这样训练? vocab building
会对train
产生影响吗?
答案 0 :(得分:1)
vocab building
基本上只是对整个数据集的一次传递,并且不会对训练时间产生太大影响(除非你训练数十亿字)。
Gensim的Doc2Vec(据我所知)目前不允许从预定义的词汇表中创建模型。如果您使用Mikolov的code2vec(https://groups.google.com/d/msg/word2vec-toolkit/Q49FIrNOQRo/J6KG8mUj45sJ)代码,它将允许您保存词汇并从词汇中读取。
word2vec -save-vocab <file>
word2vec -read-vocab <file>