我正在使用快速文本训练特定文本语料库中的单词向量。 Fasttext为训练单词向量提供了所有必要的机制和选项,当用tsne查看时,向量是惊人的。我注意到gensim有一个fasttext的包装器,它有助于访问向量。
对于我的任务,我有很多文本语料库。我需要再次使用上面训练过的矢量和新的语料库,并在新发现的语料库上再次使用训练过的矢量。 fasttext不提供此功能。我没有看到任何实现这一目标的包裹,也可能是我迷失了。我在google forum中看到gensim提供了intersect_word2vec_format,但无法理解或找到这方面的用法教程。还有另一个question开放,类似于此,没有答案。
除了gensim之外,还有其他方法可以像上面那样训练模型。