我是亚马逊AWS的新手。我想访问Google Books Ngrams数据集。大小约为2.2 TB。可从以下位置获取:s3://datasets.elasticmapreduce/ngrams/books/
由于数据很大,我无法将其下载到我的电脑上。 (1)我如何才能检查部分数据?例如,下载或检查大型文件的在线10MB。 (2)如何创建快照以便我可以使用Amazon EC2来分析数据?为了从快照创建公共数据集卷,我需要找到该数据集的快照ID。但我无论如何都找不到它。
答案 0 :(得分:1)
(1)是的,您可以使用AWS CLI或S3DistCP复制部分数据。 (2)该数据在S3上,因此您不会像在EBS数据集上那样获得快照。
我建议您通过本实验室了解如何处理此数据集:https://run.qwiklab.com/focuses/preview/1161?locale=en