我最近为英语下载了fasttext预训练模型。我有两个文件:
我不确定这两个文件有什么区别?
答案 0 :(得分:18)
.vec
文件仅包含纯文本中的聚合单词向量。 .bin
文件另外包含模型参数,关键的是,所有n-gram的向量。
因此,如果您想使用这些n-gram(FastText着名的“子词信息”)编码您未训练的单词,则需要才能找到可以处理FastText {{1}的API }文件(大多数只支持.bin
文件,但是......)。
答案 1 :(得分:10)
正如documentation所说,
model.vec
是一个包含单词vectors的文本文件,每行一个。model.bin
是包含模型参数的二进制文件 以及字典和所有超级参数。
换句话说,.vec
文件格式与.txt
文件格式相同,您可以在其他应用程序中使用它(例如,在您的FastText模型和Word2Vec模型之间交换数据.vec
文件类似于Word2Vec生成的.txt
文件。如果您想继续训练向量或重新开始优化,可以使用.bin
文件。