配置Azure for Storage和Hadoop集群处理

时间:2017-12-14 15:46:59

标签: azure hadoop hdinsight

希望有人可以提供任何建议。目前,我被要求为新的Azure平台规划可能的基础架构。我们还将在我们的ETL和存储中使用HDFS / Hadoop。

任何人都可以提供以下建议:

设置存储优化服务器(例如,L4,4核,32gb Ram,678 GB存储)以在HDFS中保存我们的原始数据,参考表和最终清理数据。该服务器可以全天候运行以提供我们的分析平台。

然后,为了利用Hadoop的强大功能,我们是否可以启动一组处理服务器(例如,每周一次)从存储服务器读取,处​​理并写回存储服务器,然后关闭直到下一次加载&安培;过程任务。

真的很感谢任何人对这个或我们能想到的任何可能配置的想法吗?

非常感谢

费奥拉诺

1 个答案:

答案 0 :(得分:0)

无论您的Hadoop集群是本地还是云,它都包含两个主要资源:用于处理作业的计算资源和用于保存数据的存储资源。在内部部署群集中,存储和计算资源组合到将它们捆绑在一起的相同硬件中。使用HDInsight,存储完全与计算资源分离。这是HDInsight的一个非常重要的区别。这意味着我可以完全关闭群集的计算部分,并且数据仍然可以访问。

注意:要分析HDInsight群集中的数据,您可以将数据存储在Azure StorageAzure Data Lake Store或两者中。

有关详细信息,请参阅“Azure HDInsight Documentation”。