如何将大数据公共数据集导入AWS?

时间:2012-01-24 17:38:45

标签: amazon-ec2 amazon-web-services amazon-simpledb amazon-ebs bigdata

加载任何亚马逊列出的公共数据集(http://aws.amazon.com/datasets)会占用大量资源和带宽。将它们导入AWS的最佳方法是什么,以便您快速开始使用它们?

2 个答案:

答案 0 :(得分:5)

您需要使用公共数据集的Snapshot-ID创建新的EBS实例。这样你就不需要支付转账费用了。

但要注意,有些数据集仅在一个区域内可用,很可能用与此类似的注释表示。您应该在同一地区注册您的EC2实例。

  

这些数据集托管在us-east-1区域。如果您从其他地区处理这些内容,则需要支付数据转移费用。

答案 1 :(得分:1)

仅供参考:SDBExplorer使用Multithreaded BatchPutAttributes在将批量数据上传到Amazon SimpleDB时实现高写入吞吐量。 SDB Explorer允许多个并行上传。如果您有带宽,则可以通过在并行队列中一次运行多个BatchPutAttributes进程来充分利用该带宽,从而减少处理时间。 SDBExplorer支持将数据从MySql和CSV导入Amazon SimpleDB。

http://www.sdbexplorer.com

披露:我是SDBExplorer的开发人员。