在AWS中出现网络错误后恢复会话

时间:2017-02-25 15:24:04

标签: amazon-web-services networking amazon-ec2

我是 AWS 的初学者用户,并且我使用 EC2实例进行MCMC采样,这需要一些时间。不幸的是,我在采样过程中遇到了网络问题并收到了消息:

Network error: Software caused connection abort

所以我不得不重新启动实例,丢失了我的所有工作(但不是我的数据)。

有没有办法设置实例以避免此问题?

提前谢谢

2 个答案:

答案 0 :(得分:1)

我不确定MCMC采样是什么意思,但会尝试猜测。

在这种情况下,不丢失信息的唯一方法是将其存储在可靠的解决方案中,例如: S3。

如果您需要长时间计算,那么您需要将它们并行或至少细分为较小的块,然后将队列,其状态和中间结果存储在可靠的存储中。很可能代码必须修改。如果您的计算可以并行化,那么您可能需要检查SQS和现场实例,有时您可以节省很多钱。

如果我的猜测不正确,那么请澄清。

答案 1 :(得分:0)

而不是重新启动,重新启动实例将在大多数时间解决此问题。实例重新启动会在其实例存储卷上保留任何数据。