我对azure hdInsight有一些基本的澄清。 以下文章提供了有关使用hdinsight的一些基本输入。 https://azure.microsoft.com/en-in/documentation/articles/hdinsight-hadoop-emulator-get-started/
它说HDinsight内部使用azure blob存储。 考虑到这一点,我的问题如下:
我有一个使用存储帐户stg1的hdinsight hd1。 如果我想使用azure存储资源管理器上传和下载文件到stg1,那么使用hd1是什么,我甚至可以在没有创建成本高昂的hdinsight的情况下完成它。 那么,hadoop hdinsight是否仅用于处理存储在stg1中的一些数据以产生一些像wordcount这样的结果?这是我们使用HDInsight的唯一原因吗?
答案 0 :(得分:5)
如果您想更好地了解HDInsight和blob存储,则需要阅读https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/。
HDInsight是微软对Hadoop的实现。到目前为止,有4种不同的基类型,包括Hadoop,HBase,Storm,Spark。您始终可以在基本类型中安装其他组件。您的问题实际上是关于使用Hadoop的原因。当您需要处理大量数据时,Hadoop会闪耀 - 大数据。
HDInsight与其他Hadoop实施之间的区别之一是存储(blob存储)与计算(HDInsight集群)的分离。您仍然需要复制数据(或将数据直接存储在Azure blob存储中)。准备好处理时,创建HDInsight群集,提交作业,然后删除群集。您删除群集,因此您不再需要为群集付费。即使在删除群集后,存储在Blob存储中的日期也会保留。
答案 1 :(得分:2)