EC2提供了一种非常方便的按需可扩展机制来执行可分发(并行可执行)流程,S3提供了可靠的存储服务。
我试图将EC2节点用于ETL&在分析过程中,这个过程需要非常快速地(并且一天中几次)摄取大量数据(100GB-1TB),并且可以在短时间内提供足够的计算资源。
以上设计需要
但到目前为止
在私有数据中心设置中,可以在存储和物理节点之间设置更快(例如10Gbps)的专线。
如果aws可以满足上述要求,是否有任何可能的替代/服务选项。
答案 0 :(得分:5)
非常依赖于各种各样的事情 - 同一物理服务器上的其他EC2实例正在进行多少网络活动,您在任何时间点击的特定S3节点,无论您是否在同一地区作为您的S3端点等
你可以自己做基准测试,但即便如此,它也会有很大变化。我有时会得到每秒几兆字节,有时会得到几百千字节。
答案 1 :(得分:4)
我认为现在有一个更好的答案。
有一个单独的服务Data pipeline,可在S3和EC2之间提供可靠的数据传输
答案 2 :(得分:2)
至少我最近发现了这一点(虽然它可能有一段时间可用)。 Cloudberry提供了将数据从S3传输到EC2的快速方法。速度范围从40MBPS到50MBPS。这是过程。从http://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspx下载cb s / w。连接到S3。一旦看到文件,右击文件即可复制并选择weburl。这将显示该文件的weburl。复制整个URL并在AWS VM上使用wget获取url内容(wget [复制url]
我仍在寻找将数据从VM复制到S3的工具。 S3cmd很慢并且打破得太频繁。