减少快速文本bin文件的大小

时间:2018-07-19 07:14:03

标签: deep-learning fasttext

目前,fastText wiki.en.bin的bin文件约为8GB。是否有大约一半的版本? bin文件由从大型Wiki语料库生成的模型和预训练向量组成。是否有较小的en。版本将使低端机器更容易使用?加载该文件会占用太多内存。

还是要获得一个较小的bin文件以供Fasttext使用,我应该使用一组较小的并行语料集来训练自己的Fasttext向量集吗?

1 个答案:

答案 0 :(得分:2)

您可以使用量化功能

$ ./fasttext quantize -output wiki.en 

这将大大减少模型的大小,而不会损失太多的准确性。