我正在尝试获得大约1GB的大型数据集,我发现大型数据集都在亚马逊网络服务中 https://aws.amazon.com/datasets/google-books-ngrams/ 并声明数据可用
S3://datasets.elasticmapreduce/ngrams/books/
现在我正在尝试下载此数据。所以为此我在AWS中创建了我的虚拟机。如何在我的AWS中下载这2 gb数据,以便稍后我可以通过scp传输到我的本地机器?
答案 0 :(得分:1)
正如Mark B评论的那样,您不需要在AWS中启动服务器来下载这些数据集。它们在S3中公开托管,因此您可以使用AWS S3 CLI的cp
工具将其下载到本地计算机,方法是运行:
aws s3 cp --recursive s3://datasets.elasticmapreduce/ngrams/books/ local
可以找到相关文档here。