HDInsight:HBase还是Azure表存储?

时间:2014-10-28 12:15:42

标签: azure hadoop hbase azure-table-storage hdinsight

目前我的团队正在创建一个使用HDInsight的解决方案。我们每天将获得5TB的数据,并且需要对这些数据进行一些地图/减少工作。如果我们的数据存储在Azure表存储而不是Azure HBase中,是否会有任何性能/成本差异?

2 个答案:

答案 0 :(得分:8)

主要区别在于功能和成本。

Azure表存储本身并没有连接到它的地图缩减引擎,当然您可以使用map reduce方法编写自己的。

您可以使用Azure HDInsight将Map Reduce连接到表存储。有几个连接器,包括我编写的一个连接器,需要一些配置,可能不适合你的分区方案(http://www.simonellistonball.com/technology/hadoop-hive-inputformat-azure-tables/)和一个性能较低,但更完整的版本来自微软的人(http://blogs.msdn.com/b/mostlytrue/archive/2014/04/04/analyzing-azure-table-storage-data-with-hdinsight.aspx)。

表存储的主要优点是您不会经常承担处理成本。

如果你使用HBase,你将需要一直运行一个完整的集群,所以有一个成本劣势,但是,你将获得一些功能和性能提升,而且你会有一些更便携的东西,如果你希望使用其他hadoop平台。您还可以使用HBase选项访问更大范围的分析功能。

答案 1 :(得分:3)

HDInsight(HBase / Hadoop)使用Azure Blob存储而不是ATS。对于您的数据存储,您只需根据订阅收取适用的blob存储费用。

P.S。在工作完成后不要忘记删除您的群集,以避免收费。您的数据将保留在BLOB存储中,并可由您构建的下一个群集使用。