我有一个程序要运行并在Azure上进行基准测试。我们已经在Amazon EC2上测试了这个程序,并希望尝试尽可能地镜像硬件。在EC2上,我们访问的数据被放在SSD上。我们在Azure上的blob中有数据。
当我们制作HDInsight群集时,我们只是将数据从blob复制到群集,它是否会在SSD上(假设我们的群集是使用SSD申请的?)
答案 0 :(得分:0)
是。你会用
hadoop distcp <wasb://src-url> <hdfs://dest-url>
从hadoop命令行,将数据从blob存储移动到本地HDFS。
仅供参考 - 建议的架构是使用Blob存储/ Data Lake而不是HDFS。
<强>参考文献:强> https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/