在Amazon AWS上快速访问大数据

时间:2017-01-13 08:11:36

标签: amazon-s3 amazon-ec2 amazon-dynamodb bigdata

最近,我们开始在Amazon AWS EC2上运行网站服务器(使用node和mongodb)。该网站旨在对可以达到100MB大小的3d模型数据运行验证算法。

作为一项功能,我们正在考虑为这些模型提供存储量和管理系统。用户应该在登录时收到已上传模型的列表,并且如果需要,可以快速重新运行算法。

如何在亚马逊的EC2上运行这样的场景?什么样的数据存储最适合大文件大小和快速检索文件?是例如mongo数据库中的存储可能/一个好主意?

3 个答案:

答案 0 :(得分:0)

我建议您将一些通用SSD(gp2)卷附加到EC2实例(read more)。通过这种方式,您可以获得价格合理的存储以及可接受的(取决于您的需求,但在您的情况下似乎足够)性能。如果您需要更好的性能,则应将文件缓存在内存中。无论哪种方式,都应考虑可扩展性。

如果您需要可扩展性,请转到S3。但它会更慢,当然也更便宜。

答案 1 :(得分:0)

您可以使用S3存储桶

  

Amazon Simple Storage Service(Amazon S3)是一个对象存储,具有简单的Web服务接口,可以从Web上的任何位置存储和检索任何数量的数据。它旨在提供99.999999999%的耐用性,并扩展到全球数万亿件物品

     

Amazon S3将数据存储为名为" buckets"的资源中的对象。您可以在存储桶中存储任意数量的对象,并在存储桶中写入,读取和删除对象。物体的大小可达5太字节。

答案 2 :(得分:0)

我认为这里最好的方法是使用EBS卷(GP2 / SSD),如果您想要快速访问,低延迟文件访问,请避免使用S3。不建议使用S3的原因是因为它是对象存储,并且未通过近距离网络连接附加到EC2实例。 Block / EBS存储更适合于需要更快处理时间的大型文件,因为它是网络连接(到EC2实例)存储。