使用本地驱动器在Azure HDInsight上运行Spark程序

时间:2016-04-03 23:02:40

标签: azure apache-spark benchmarking hdinsight

我有一个程序要运行并在Azure上进行基准测试。我们已经在Amazon EC2上测试了这个程序,并希望尝试尽可能地镜像硬件。在EC2上,我们访问的数据被放在SSD上。我们在Azure上的blob中有数据。

当我们制作HDInsight群集时,我们只是将数据从blob复制到群集,它是否会在SSD上(假设我们的群集是使用SSD申请的?)

1 个答案:

答案 0 :(得分:0)

是。你会用

hadoop distcp <wasb://src-url> <hdfs://dest-url>
从hadoop命令行

,将数据从blob存储移动到本地HDFS。

仅供参考 - 建议的架构是使用Blob存储/ Data Lake而不是HDFS。

<强>参考文献: https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/