Hadoop的一个卖点是数据与计算机一致吗?这对WASB有什么用? 处理MapReduce作业时,将执行map和reduce任务,其中驻留数据块。这样就实现了数据的本地化。 但在HDInsight的情况下,数据存储在wasb中。因此,当执行MapReduce时,数据是否从wasb复制到每个计算节点,然后进行处理?如果是这样,那么将数据复制到计算节点的单个通道将成为瓶颈。
有人可以向我解释如何在wasb上存储数据以及处理数据的过程如何处理?
答案 0 :(得分:0)
与任何Hadoop系统一样,数据在计算时(作业运行时)加载到各个节点的内存中。与WASB的不同之处在于,数据是从Azure存储帐户而不是从本地磁盘加载的。考虑到构建Azure数据中心骨干网的方式,本地连接到VM的磁盘的性能通常是相同的。
答案 1 :(得分:0)
HDInsight群集位于Azure的任何区域。群集可以读取的存储帐户只能来自同一区域以避免高延迟。 Azure在其数据中心上做了大量工作,因此性能可比。
如果你想了解更多,Ashish的引用来自这篇文章: https://blogs.msdn.microsoft.com/cindygross/2015/02/04/understanding-wasb-and-hadoop-storage-in-azure/