python - 具有动量的梯度下降比正常的梯度下降更糟糕

我目前正在做Andrew Ng的deeplearning.ai专业化。在第二个课程中，他谈到了我们可以用来优化梯度下降的不同技术。我观看的特定视频是关于Momentum with Gradient Descent的视频。

因此，在观看视频后，我开始了一个新项目并实现了没有动量的梯度下降（GD），准确度达到了85％。然后，我实施了动力并获得了62％的准确度。

我不知道我在这里做错了什么。我实现了与视频中显示的相同的算法。我猜测我错过了关于算法的一些要点。

另外，我们可以使用动量正规化吗？因为我尝试了正则化而没有正则化，两者都给出了62％的准确度。

以下是图表：

没有动力（准确度85％）：

有动力：

以下是神经网络课程：> https://pastebin.com/KwTU0XuP