我在Azure上使用HDInsight。我在Azure Blob存储上从Spark输出了一些Spark数据帧到CSV格式。我想将它们作为单个CSV文件下载。
Spark已将这些文件存储为空文件FOO.csv和一个名为FOO.csv /的目录,其中包含数据的CSV分区。
截图:
[
在HDInsight群集的头节点上,我可以使用
在本地合并文件$ hdfs dfs -getmerge wasb://xxxxxxxxxxxxx/salga2hf4da115242.csv salga2hf4da115242.csv
但这需要一个正在运行的hadoop集群来执行此操作。我希望能够使用Azure CLI在任何地方获取此数据。
我试过了:
$ azure storage blob download cat-vectors-ru salga2hf4da115242.csv salga2hf4da115242.csv
但是这只下载了容器顶层的0字节文件。
如何使用Azure CLI下载所有数据? Azure CLI是否也可以进行合并?