在 AWS EC2 中训练深度学习模型非常慢

时间:2021-02-23 19:23:28

标签: amazon-web-services amazon-ec2 deep-learning yolov5

我在将 YOLOv5 训练到具有 NVIDIA Tesla K80 的 p2.xlarge aws ec2 实例时遇到了很大的速度问题。

我意识到训练过程比我的装有 NVIDIA RTX 2060 的台式电脑还要慢。所以我决定对一些图像进行推理,结果如下:

我的 RTX 2060: enter image description here

AWS EC2 Tesla K80: enter image description here

所以我决定尝试一个 p2.8xlarge 实例来训练我的深度学习模型,结果很相似,因此我对相同的图像进行了推断,令我惊讶的是我得到了相似的结果。

带有 8 个 Tesla K80 的 AWC EC2: enter image description here

重要的是要记住,这个 p2.8xlarge 实例有 488 MB 的内存 RAM 和 32 个 vCPU 内核和 8 个 Tesla K80,所以我的问题是:这个 p2.8xlarge 比我的 PC Desktop 训练 YOLO 的速度还慢吗? 64 MB 内存 RAM 和 16 个内核?

有人遇到过同样的问题吗?有什么解决方案或建议可以给我吗?

最后我在我的 PC 上训练了模型,但花费了太多时间。另一方面,云环境理应解决这些问题。

看来我不是唯一发生这种情况的人:

0 个答案:

没有答案