帮助我纠正此问题,或者还有其他方法可以完成此任务吗?
答案 0 :(得分:1)
build_vocab()
需要一个文本列表(令牌列表)–您只是给它一个单词列表,因此每个单词都被视为单个文本,并且是唯一的新单词您的代码可能添加的单词是单个字母。
而且:
min_count=1
通常不利于矢量质量epochs=150
比通常的5-10次迭代要高得多-略高于那可能对小型数据集有用,但100次以上是多余的当包含新词的新文本时,最可靠的方法是重新训练整个模型,将所有新旧文本混合在一起。这样可以最好地确保所有单词之间的同等关注和兼容的坐标。
如果使用新文本进行了渐进式培训,无论是否扩展了词汇量,都应仔细观察对模型总体质量的自定义评估,以确保您正在做的事情有所帮助。