nlp - 对于Gensim 4.0，如何使用预先训练好的模型，并用我自己的语料库进一步训练？

对于Gensim 4.0，如何使用预先训练好的模型，并用我自己的语料库进一步训练？

时间：2021-04-16 02:06:28

标签： nlp gensim word2vec word-embedding pre-trained-model

对于 Gensim 3.8，我可以使用以下脚本用预训练权重初始化模型，然后在我自己的语料库上训练它。如何在 Gensim 4.0 中做到这一点？

mod = Word2Vec(size=300, min_count=5, workers=1, sg=1, seed=1)
mod.build_vocab(my_corpus)
mod.min_count = 0
pret_mod = KeyedVectors.load_word2vec_format("GoogleNews-vectors-negative300.bin", binary=True)
mod.build_vocab([list(pret_mod.vocab.keys())], update=True)
mod.intersect_word2vec_format("GoogleNews-vectors-negative300.bin", binary=True, lockf=1.0)
mod.train(my_corpus, total_examples=mod.corpus_count, epochs=mod.iter)

0 个答案:

没有答案

使用gensim将LDA应用于语料库进行训练
如何在gensim中加载预先训练好的模型并用它训练doc2vec？
如何加载预先训练好的Word2vec模型文件并重复使用？
如何在我自己的语料库上训练GloVe算法
使用预训练模型进一步训练当前语料库
如何使用gensim在我自己的语料库上训练预训练的二进制文件？
如何在我自己的语料库上训练ngram模型
使用自己的语料库训练rasa模型
训练来自多个语料库的模型
对于Gensim 4.0，如何使用预先训练好的模型，并用我自己的语料库进一步训练？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？