向预训练的word2vec模型添加更多词汇

时间:2018-08-09 08:27:39

标签: machine-learning nlp data-mining gensim word2vec

帮助我纠正此问题,或者还有其他方法可以完成此任务吗?

Snapshot of code snippet

1 个答案:

答案 0 :(得分:1)

build_vocab()需要一个文本列表(令牌列表)–您只是给它一个单词列表,因此每个单词都被视为单个文本,并且是唯一的新单词您的代码可能添加的单词是单个字母。

而且:

  • min_count=1通常不利于矢量质量
  • epochs=150比通常的5-10次迭代要高得多-略高于那可能对小型数据集有用,但100次以上是多余的
  • 逐渐增加词汇/培训并不一定会改善您的模型;特别是当您使用不包含整个词汇表(以及用法范围)的新示例进行训练时,模型中只有一些单词会被调整-并可能与其他单词出现 -alignment 仅在早期培训中才知道的单词

当包含新词的新文本时,最可靠的方法是重新训练整个模型,将所有新旧文本混合在一起。这样可以最好地确保所有单词之间的同等关注和兼容的坐标。

如果使用新文本进行了渐进式培训,无论是否扩展了词汇量,都应仔细观察对模型总体质量的自定义评估,以确保您正在做的事情有所帮助。