我正在尝试使用此命令以Fasttext量化无监督模型。
model.quantize(input=train_data, qnorm=True, retrain=True, cutoff=200000)
抛出一个错误,它仅受监督的模型支持。
有没有其他方法可以量化无监督模型?
答案 0 :(得分:1)
paper which introduced the FastText team's quantization strategy仅评估分类模型,并使用了一些修剪步骤,这些步骤仅对带有标签的培训文档有意义。 (不过,我看不到-quantize
的论点包括原始的培训文档,因此不确定本文中所述的修剪技术是否已完全实现。)
虽然某些压缩步骤可以应用于无监督的密集向量,但我还没有看到提供这种功能的库,但是实现/添加可能是一件很整洁的事情。
但是,FastText工作完成的分类可能是这些技术的“最佳结合点”,并将其应用于其他词向量后,它们会对下游使用产生更大的负面影响。因此,应在扩展该技术的同时进行一些实验,以确认其价值。