从Amazon S3复制公共数据集

时间:2016-11-21 06:13:31

标签: amazon-s3 amazon-ec2 amazon

我正在开发一个开源项目来分析AWS中的公共数据集(https://aws.amazon.com/datasets)。

我需要将公共数据集复制到本地计算机以进行分析。如何将这些数据集从亚马逊复制到我的本地机器?

1 个答案:

答案 0 :(得分:1)

这个问题没有一个答案,它取决于每个数据集。

数据集可以从s3获得,如NASA NEX datasets,因此如果需要,可以从s3存储桶下载。

许多数据集也可以直接从卷快照中获得。在这种情况下,您需要从给定快照安装新卷,例如您可以挂载Wikipedia Page Traffic Statistic V3

localmachine $ ec2-create-volume --snapshot snap-f57dec9a -z us-east-1a localmachine $ ec2-attach-volume vol-ec123456 -i i-df123456 -d /dev/sdf root@domU-XX-XX-XX-XX-XX-XX:/mnt# mkdir /mnt/wikidata root@domU-XX-XX-XX-XX-XX-XX:/mnt# mount /dev/sdf /mnt/wikidata

在大多数情况下,亚马逊会指出数据集的来源,因此您可以关注该链接,并且在每个源中,您还可以下载给定的数据集。