我已经看到了一些同时训练混合专家模型的例子(在整个门控+ m.o.e网络上进行一次迭代反推)。但是,这仅适用于可以通过这种方式进行优化的模型。例如,一位专家是knn分类器,另一位是标准mlp。
对于每个专家计算的损失也是如此,然后门控网络自身优化或者是计算的总损耗w.r.t.门控重量*专家输出?
答案 0 :(得分:0)
[Elaborating @Wontonimo回答]
在Mixture of Experts网络中,对于每个输入,每个专家提供自己的输出,然后由门控网络加权。
在训练期间,每个专家都会收到正确的输出和系数(通常在[0,1]中),该系数将与先前为该特定输入提供的输出质量成比例。
门控网络将输入空间动态划分为(模糊)子集以分配给专家。
这允许每个专家专注于可能的输入值的子集。
专家网络和门控网络最好同时进行培训,因为它们的更新是相互依赖的。