选择长期存储/分析系统?

时间:2015-07-22 15:24:21

标签: azure storage bigdata analytics hdinsight

我正在进行的项目的简短摘要:

我被聘为一家小型公司(一家大公司的一部分)的网络开发实习生,靠近我所在的州立大学。在过去的几个月里,我和其他两位实习生一直致力于前端和后端工作。该公司正在为其产品(石油/天然气行业)添加传感器原型;我们的任务是建立一个门户网站,客户可以登录该门户网站查看他们机器上的数据,即使他们不在他们附近也是如此。

基本上,我们正在收集传感器数据(〜十个传感器/机器)并将其发回给我们。我们陷入困境的地方是确定存储和分析长期数据的最佳方式。我们设置了一个Redis缓存,用于前端的快速访问,其中只存储每台机器的最新数据集。但对于历史数据,我(以及我的同事)在决定最佳路线时遇到了困难。我们的整个项目都基于VS(C#/ Razor)与Azure集成(顺便说一句,这很棒),所以我想保留那里的长期存储。据我所知,HDinsight + BLOB中的数据似乎是最好的选择,但在后端解决方案方面,我相当环保。我希望得到一些可能在这方面有更多经验的老开发人员的意见,因为我们是这里唯一的开发人员,除了几个更老的成员,他们更多地参与工程方面的事情与开发。

那么,堆栈溢出的专业人士,您对长期数据存储和分析的建议是什么?

PS:如果我对HDinsight感到困惑,我道歉。据我所知,它将BLOB存储中的数据映射到HBase中以便于分析? Hadoop / HBase让我很困惑。

1 个答案:

答案 0 :(得分:1)

我的第一个建议是Azure Table存储。它提供了高度可扩展且低成本的数据归档解决方案。如果设计得当,您还可以获得非常不错的查询性能。有关详细信息,请参阅Azure Storage Table Design Guide

我的第二选择是Azure DocumentDB服务,这是一个NoSQL文档数据库。它的成本要高一些,但查询数据要灵活得多。

当您有特定需求时,您应该只使用HDInsight,因为这是一项资源密集且价格昂贵的服务。一旦确定了大数据分析的特定要求,即在导入数据并使用HDInsight处理数据时。