直接在Azure中下载和解压缩数据集

时间:2016-04-23 15:49:15

标签: azure

我需要直接在我的azure帐户中加载和解压缩一个27千兆的数据集,使用带有textFile函数的spark实例来处理它,以进行一些机器学习。我该怎么办?

我想写更多,但我花了这么多时间在网上冲浪,但我仍然无法实现任何有用的东西。

这是数据集:

https://academicgraphwe.blob.core.windows.net/graph-2016-02-05/index.html

1 个答案:

答案 0 :(得分:1)

如果直接从该位置到您的VM,那么在我看来,最简单的方法是使用AzCopy

例如,在您的情况下,它可能是这样的: AzCopy /来源:https://academicgraphwe.blob.core.windows.net/graph-2016-02-05/ / Dest:C:\ myfolder / SourceKey:key /Pattern:"abc.txt“

在VM上安装AzCopy并运行命令。这里不需要SourceKey,因为您的数据集看起来像是公开的blob。但是将链接更改为所需的位置(因为它会转到某种链接列表)。