Fasttext .vec和.bin文件之间的区别

时间:2017-11-05 06:03:18

标签: python nlp deep-learning word2vec fasttext

我最近为英语下载了fasttext预训练模型。我有两个文件:

  1. wiki.en.vec
  2. wiki.en.bin
  3. 我不确定这两个文件有什么区别?

2 个答案:

答案 0 :(得分:18)

.vec文件仅包含纯文本中的聚合单词向量。 .bin文件另外包含模型参数,关键的是,所有n-gram的向量。

因此,如果您想使用这些n-gram(FastText着名的“子词信息”)编码您未训练的单词,则需要才能找到可以处理FastText {{1}的API }文件(大多数只支持.bin文件,但是......)。

答案 1 :(得分:10)

正如documentation所说,

  

model.vec是一个包含单词vectors的文本文件,每行一个。   model.bin是包含模型参数的二进制文件   以及字典和所有超级参数。

换句话说,.vec文件格式与.txt文件格式相同,您可以在其他应用程序中使用它(例如,在您的FastText模型和Word2Vec模型之间交换数据.vec文件类似于Word2Vec生成的.txt文件。如果您想继续训练向量或重新开始优化,可以使用.bin文件。