使用azure blob存储时的HDInsight群集大小

时间:2014-06-02 22:33:24

标签: azure hadoop hive hdinsight

使用HDInsight并选择Azure存储Blob来存储需要计算的数据时,您仍需在配置新群集时选择数据节点数。如果您的数据存储在Azure存储Blob上,那么数据节点的数量会产生什么影响? blob中的数据是否实际复制到数据节点上?

1 个答案:

答案 0 :(得分:5)

如果您将数据放在Azure Blob商店中,它会保留在那里,并直接从Azure存储中读取。

HDInsight群集中的数据节点有两个用途。首先,它们运行实际的计算作业,从Azure Storage Directly读取。这并不像HDFS用户那样疯狂,因为Azure的底层结构一致,可以使存储保持良好且接近计算。

其次,数据节点在其本地磁盘上运行HDFS文件系统。这通常仅用于HDInsight中的中间文件和tmp文件,因为它是暂时的(仅与集群一样长)。

因此,选择数据节点的数量本质上是选择您希望能够处理多少作业运行节点(纱线应用程序容器或作业跟踪器插槽,具体取决于版本),并在较小程度上选择多少温度空间你的工作需要。