我从阅读squeeze net论文中看到了这个问题。作者声明他们使用Deep Compression来压缩预先训练的模型。该算法包括霍夫曼码等。
我推断预训练的是所有参数,我知道这些参数是在训练网络时生成的,但我不知道如何生成参数。在进行预测时,预训练模型的参数起什么作用?
听起来像是黑魔法
答案 0 :(得分:0)
预训练模型由每层的每个内核的层连接的所有的权重组成。这是训练前40-80岁时的“繁重”。它应该准备好做预测,或继续进行你想要应用的任何微调。
这不是真正的黑魔法。每个框架都有一个工具,可以按指定的时间间隔和完成培训时转储(备份)参数值。当然,这些是相对较大的文件 - 因此使用压缩。每个框架都有一个读取这样的转储文件的工具,以便引导模型。