如何建立快速可靠的S3到EC2连接

时间:2012-06-14 20:52:29

标签: amazon-s3 amazon-ec2

EC2提供了一种非常方便的按需可扩展机制来执行可分发(并行可执行)流程,S3提供了可靠的存储服务。

我试图将EC2节点用于ETL&在分析过程中,这个过程需要非常快速地(并且一天中几次)摄取大量数据(100GB-1TB),并且可以在短时间内提供足够的计算资源。

以上设计需要

  1. S3和EC2之间的高带宽/快速连接。
  2. S3 - > EC2连接也应该是可靠的,因为必须尽快安排启动,泵入数据,执行进程和终止节点,这不仅是为了节省成本,还因为涉及SLA。
  3. 但到目前为止

    1. 从S3中提取数据的唯一方法似乎是通过http,因此它受到EC2节点下载带宽的限制。
    2. 此外,数据摄取通过互联网进行,因此对于严格的调度目的而言可能不够可靠,因此需要对作业进行充分的缓冲。
    3. 在私有数据中心设置中,可以在存储和物理节点之间设置更快(例如10Gbps)的专线。

      如果aws可以满足上述要求,是否有任何可能的替代/服务选项。

3 个答案:

答案 0 :(得分:5)

非常依赖于各种各样的事情 - 同一物理服务器上的其他EC2实例正在进行多少网络活动,您在任何时间点击的特定S3节点,无论您是否在同一地区作为您的S3端点等

你可以自己做基准测试,但即便如此,它也会有很大变化。我有时会得到每秒几兆字节,有时会得到几百千字节。

答案 1 :(得分:4)

我认为现在有一个更好的答案。

有一个单独的服务Data pipeline,可在S3和EC2之间提供可靠的数据传输

答案 2 :(得分:2)

至少我最近发现了这一点(虽然它可能有一段时间可用)。 Cloudberry提供了将数据从S3传输到EC2的快速方法。速度范围从40MBPS到50MBPS。这是过程。从http://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspx下载cb s / w。连接到S3。一旦看到文件,右击文件即可复制并选择weburl。这将显示该文件的weburl。复制整个URL并在AWS VM上使用wget获取url内容(wget [复制url]

我仍在寻找将数据从VM复制到S3的工具。 S3cmd很慢并且打破得太频繁。