我是 AWS 的初学者用户,并且我使用 EC2实例进行MCMC采样,这需要一些时间。不幸的是,我在采样过程中遇到了网络问题并收到了消息:
Network error: Software caused connection abort
所以我不得不重新启动实例,丢失了我的所有工作(但不是我的数据)。
有没有办法设置实例以避免此问题?
提前谢谢
答案 0 :(得分:1)
我不确定MCMC采样是什么意思,但会尝试猜测。
在这种情况下,不丢失信息的唯一方法是将其存储在可靠的解决方案中,例如: S3。
如果您需要长时间计算,那么您需要将它们并行或至少细分为较小的块,然后将队列,其状态和中间结果存储在可靠的存储中。很可能代码必须修改。如果您的计算可以并行化,那么您可能需要检查SQS和现场实例,有时您可以节省很多钱。
如果我的猜测不正确,那么请澄清。
答案 1 :(得分:0)
而不是重新启动,重新启动实例将在大多数时间解决此问题。实例重新启动会在其实例存储卷上保留任何数据。