我想知道从位于同一可用区的Ec2实例处理存储在AWS S3存储桶中的大量图像的最佳方法是什么。
我每次处理它们时都应该下载我需要的图像,然后在完成后删除,每次需要进行处理时都要做同样的事情吗?
还是有更好的方法,比如将S3存储桶安装到EC2实例中?我已经看过像Fuse这样的工具用于安装,但我不确定这是否是处理数据的最佳方式。
答案 0 :(得分:1)
首先。请注意,每个EC2实例都可以被杀死,因此请将数据和结果保存在合理的存储空间 - 例如S3。
如果将整个图像提取到内存中,然后进行处理。我无法看到获取磁盘的需求。另一方面,如果图像非常大 - 您可以多次获取每个部分。所以没有简单的答案,至少有更多的信息。
您可以查看地图缩小解决方案。他们如何处理将数据保持在处理单元附近的问题。 Spark能够处理内存中的事物。
关于安装资源。还可以安装其他选项,如弹性文件系统或弹性块存储。