如何从Azure blob存储中下载分区的hadoop文件

时间:2017-02-24 15:35:23

标签: csv azure apache-spark azure-storage-blobs azure-cli

我在Azure上使用HDInsight。我在Azure Blob存储上从Spark输出了一些Spark数据帧到CSV格式。我想将它们作为单个CSV文件下载。

Spark已将这些文件存储为空文件FOO.csv和一个名为FOO.csv /的目录,其中包含数据的CSV分区。

截图:

[Spark output[1]

partitioned data

在HDInsight群集的头节点上,我可以使用

在本地合并文件
$ hdfs dfs -getmerge wasb://xxxxxxxxxxxxx/salga2hf4da115242.csv salga2hf4da115242.csv

但这需要一个正在运行的hadoop集群来执行此操作。我希望能够使用Azure CLI在任何地方获取此数据。

我试过了:

$ azure storage blob download cat-vectors-ru salga2hf4da115242.csv salga2hf4da115242.csv

但是这只下载了容器顶层的0字节文件。

如何使用Azure CLI下载所有数据? Azure CLI是否也可以进行合并?

0 个答案:

没有答案