machine-learning - 使用PSO训练的神经网络改善MNIST分类

我正在尝试比较通过反向传播和粒子群优化（PSO）进行的神经网络优化。我想使用相对较大的数据集，因此我正在使用完全连接的网络对MNIST数据集进行分类。

使用反向传播，网络结构[784，15，10]使我达到了90％的精度即一个具有15个节点的隐藏层。现在，我用PSO优化此架构所做的最好的工作是达到30％左右的精度。

我的问题是：如何使用PSO估算反向传播的性能？

我尝试过的事情：

初始化：Truncnorm，He等。方法（再次提到https://stats.stackexchange.com/questions/376312/mnist-digit-recognition-what-is-the-best-we-can-get-with-a-fully-connected-nn-o）
激活：乙状结肠，ReLU功能
惯性：在0.4〜至1.5〜之间调整
损失：MSE和交叉熵损失函数
个人最佳体重（c1）：在1〜和3〜之间调整（c1 + c2≈4）
全球最大权重（c2）：在1〜和3〜之间调整（再次，c1 + c2≈4）
迭代次数：我最多运行了300次迭代，这在我的CPU上花费了大约半个小时，应该可以满足我的需求

在大多数测试中，我发现前15到50次迭代后收敛缓慢。要么我的粒子不再更新（当惯性很高且粒子找不到更好的解决方案时），要么每次更新都变得如此之小，以至于几乎没有收敛（对于低惯性）。

由于使用这种简单的网络结构，反向传播实现可以轻松地获得85％以上的精度，因此我们知道有可能获得更高的精度，但是现在我不得不调整这些参数。

所以