应用错误收集

时间：2014-05-06 18:28:02

标签： c++ multithreading neural-network

直截了当。

我的神经网络是一种经典的前馈反向传播。我有一个历史数据集，包括：

时间，温度，湿度，压力

我需要根据历史数据预测下一个值。

此数据集大约 10MB ，因此在一个核心上进行训练需要很长时间。我希望通过培训获得多核，但我无法理解每个核心的训练数据会发生什么，以及核心完成工作后到底发生了什么。

每个培训数据都分为大批量线程。每个线程执行前进和后退的传播。权重和阈值增量是每个的总和线程。在每次迭代结束时，所有线程都必须暂停简要地说明要加总和应用的权重和阈值增量到神经网络。

＆＃39; 每个线程都执行向前和向后传播＆＃39; - 这意味着，每个线程只是用它的数据集的一部分训练自己，对吧？每个核心训练迭代次数多少？
＆＃39; 在每次迭代的过程中，所有线程都必须暂时暂停，以便对权重和阈值增量求和并将其应用于神经网络＆＃39; - 这到底是什么意思呢？当核心用他们的数据集完成训练时，主程序会做什么？

感谢您对此的任何意见！

答案 0 :(得分：1)

通过反向传播完成训练往往不是人们真正想要的东西，原因是过度拟合。为了获得更好的泛化性能，通常使用诸如重量衰减或早期停止的方法。

在此背景下，请考虑以下启发式方法：将数据拆分为与核心数相对应的部分，并为每个核心（每个核心具有相同的拓扑）建立网络。训练每个网络完全分开其他网络（我会使用一些常用的学习率参数等）。你得到了一些http://www.texify.com/img/%5Cnormalsize%5C%21N_%7B%5Ctext%7B%7D%7D.gif 训练有素的网络http://www.texify.com/img/%5Cnormalsize%5C%21f_i%28x%29.gif。

接下来，您需要一个方案来组合结果。选择http://www.texify.com/img/%5Cnormalsize%5C%21F%28x%29%3D%5Csum_%7Bi%3D1%7D%5EN%5C%2C%20%5Calpha_i%20f_i%28x%29.gif，然后使用最小二乘法调整参数http://www.texify.com/img/%5Cnormalsize%5C%21%5Calpha_i.gif，以使http://www.texify.com/img/%5Cnormalsize%5C%21%5Csum_%7Bj%3D1%7D%5EM%20%5C%2C%20%5Cbig%28F%28x_j%29%20-%20y_j%5Cbig%29%5E2.gif最小化。这涉及奇异值分解，其在测量数M中线性地缩放，因此在单个核上应该是可行的。请注意，这种启发式方法也与极限学习机器有一些相似之处。或者，更容易，你可以简单地尝试平均权重，见下文。

此外，请参阅这些答案here。

关于你的问题：

正如Kris所说，它通常是一次迭代。但是，一般来说，它也可能是您选择的一小部分。我会在这里大致介绍1到20之间的选择。请注意，上述建议使用无穷大，但是，然后用更合适的东西替换重组步骤。
这一步简单地完成了它所说的：它总结了所有的权重和增量（究竟取决于你的算法）。请记住，您的目标是最终使用一个训练有素的网络，并使用拆分数据进行估算。

要收集，通常会做以下事情：

（i）在每个线程中，使用您当前的（全局）网络权重来通过反向传播来估计增量。然后使用这些增量计算新的权重。

（ii）平均这些线程局部权重以获得新的全局权重（或者，您可以总结增量，但这仅适用于线程中的单个bp迭代）。现在再次从（i）开始，在每个线程中使用相同的新计算权重。这样做直到达到收敛。

这是迭代优化的一种形式。该算法的变化：

答案 1 :(得分：0)

对于多核并行化，考虑通过线程等分割训练数据是没有意义的。如果你自己实现这些东西，你很可能最终得到一个比顺序实现更慢的并行化实现，因为你复制了数据太频繁了。

顺便说一下，在现有技术水平下，人们通常使用小批量随机梯度下降进行优化。原因是您可以简单地向前传播并反向传播小批量样本，但批量梯度下降通常比随机梯度下降慢得多。

那么如何并行化前向传播和反向传播呢？您不必手动创建线程！您可以使用矩阵运算简单地记下前向传播并使用并行线性代数库（例如Eigen），或者您可以使用C ++中的OpenMP进行并行化（参见例如OpenANN）。

今天，人工神经网络的前沿库不进行多核并行化（请参阅here获取列表）。您可以使用GPU来并行化矩阵运算（例如，使用CUDA），速度要快几个数量级。