应用错误收集

build_vocab()需要一个文本列表（令牌列表）–您只是给它一个单词列表，因此每个单词都被视为单个文本，并且是唯一的新单词您的代码可能添加的单词是单个字母。

而且：

min_count=1通常不利于矢量质量
epochs=150比通常的5-10次迭代要高得多-略高于那可能对小型数据集有用，但100次以上是多余的
逐渐增加词汇/培训并不一定会改善您的模型；特别是当您使用不包含整个词汇表（以及用法范围）的新示例进行训练时，模型中只有一些单词会被调整-并可能与其他单词出现 -alignment 仅在早期培训中才知道的单词

当包含新词的新文本时，最可靠的方法是重新训练整个模型，将所有新旧文本混合在一起。这样可以最好地确保所有单词之间的同等关注和兼容的坐标。

如果使用新文本进行了渐进式培训，无论是否扩展了词汇量，都应仔细观察对模型总体质量的自定义评估，以确保您正在做的事情有所帮助。