设置fastText的char n-gram的最大长度

时间:2017-08-08 13:03:45

标签: nlp nltk gensim word2vec fasttext

我想基于此比较教程比较word2vec和fasttext模型。 https://github.com/jayantj/gensim/blob/fast_text_notebook/docs/notebooks/Word2Vec_FastText_Comparison.ipynb

据此,当我们将char n-gram的最大长度设置为零时,fastText模型的语义准确性增加,使得fastText开始表现得几乎像word2vec。它忽略了ngrams。

但是,在加载fastText模型时,我找不到有关如何设置此参数的任何形式。关于如何做到这一点的任何想法?

1 个答案:

答案 0 :(得分:2)

参数在训练时设置 - 然后使用该参数构建模型,并依赖于该参数进行解释。因此,在加载已经训练过的模型时,您通常不会更改它,并且gensim(或原始的FastText)中没有API来更改已经训练的模型上的设置。

(通过查看源代码并直接篡改加载的模型状态,可能能够近似忽略已经训练过的字符的效果 - 但是这样做了一种新颖的模式,完全不像在你所连接的笔记本中评估的非ngrams训练模式。它可能会产生有趣或可怕的结果 - 如果不尝试就无法判断。)