amazon-web-services - 在 AWS EC2 中训练深度学习模型非常慢

我在将 YOLOv5 训练到具有 NVIDIA Tesla K80 的 p2.xlarge aws ec2 实例时遇到了很大的速度问题。

我意识到训练过程比我的装有 NVIDIA RTX 2060 的台式电脑还要慢。所以我决定对一些图像进行推理，结果如下：

我的 RTX 2060：

AWS EC2 Tesla K80：

所以我决定尝试一个 p2.8xlarge 实例来训练我的深度学习模型，结果很相似，因此我对相同的图像进行了推断，令我惊讶的是我得到了相似的结果。

带有 8 个 Tesla K80 的 AWC EC2：

重要的是要记住，这个 p2.8xlarge 实例有 488 MB 的内存 RAM 和 32 个 vCPU 内核和 8 个 Tesla K80，所以我的问题是：这个 p2.8xlarge 比我的 PC Desktop 训练 YOLO 的速度还慢吗？ 64 MB 内存 RAM 和 16 个内核？

有人遇到过同样的问题吗？有什么解决方案或建议可以给我吗？

最后我在我的 PC 上训练了模型，但花费了太多时间。另一方面，云环境理应解决这些问题。

看来我不是唯一发生这种情况的人：