目前,fastText wiki.en.bin的bin文件约为8GB。是否有大约一半的版本? bin文件由从大型Wiki语料库生成的模型和预训练向量组成。是否有较小的en。版本将使低端机器更容易使用?加载该文件会占用太多内存。
还是要获得一个较小的bin文件以供Fasttext使用,我应该使用一组较小的并行语料集来训练自己的Fasttext向量集吗?
答案 0 :(得分:2)
您可以使用量化功能
$ ./fasttext quantize -output wiki.en
这将大大减少模型的大小,而不会损失太多的准确性。