对于混合专家模型,专家是先独立训练还是训练他们的总输出*门重?

时间:2017-05-11 06:22:46

标签: machine-learning tensorflow artificial-intelligence deep-learning

我已经看到了一些同时训练混合专家模型的例子(在整个门控+ m.o.e网络上进行一次迭代反推)。但是,这仅适用于可以通过这种方式进行优化的模型。例如,一位专家是knn分类器,另一位是标准mlp。

对于每个专家计算的损失也是如此,然后门控网络自身优化或者是计算的总损耗w.r.t.门控重量*专家输出?

1 个答案:

答案 0 :(得分:0)

[Elaborating @Wontonimo回答]

在Mixture of Experts网络中,对于每个输入,每个专家提供自己的输出,然后由门控网络加权。

在训练期间,每个专家都会收到正确的输出和系数(通常在[0,1]中),该系数将与先前为该特定输入提供的输出质量成比例。

门控网络将输入空间动态划分为(模糊)子集以分配给专家。

这允许每个专家专注于可能的输入值的子集。

专家网络和门控网络最好同时进行培训,因为它们的更新是相互依赖的。