Question

我有一个程序要运行并在Azure上进行基准测试。我们已经在Amazon EC2上测试了这个程序，并希望尝试尽可能地镜像硬件。在EC2上，我们访问的数据被放在SSD上。我们在Azure上的blob中有数据。

当我们制作HDInsight群集时，我们只是将数据从blob复制到群集，它是否会在SSD上（假设我们的群集是使用SSD申请的？）

Answer 1

是。你会用

hadoop distcp <wasb://src-url> <hdfs://dest-url>

从hadoop命令行

，将数据从blob存储移动到本地HDFS。

仅供参考 - 建议的架构是使用Blob存储/ Data Lake而不是HDFS。