Hadoop会帮助我的情况吗?

时间:2013-10-14 18:16:35

标签: hadoop

我正在创建一个调查引擎,该引擎将存储数百万条对各种大型调查的回复。

有各种代理商,每个代理商拥有10-100个用户。每个人都可以管理3000多个问题调查。也会有多个代理商。

如果每个机构都有数十万个会话,每个会议有3000多个回复,我认为hadoop是一个很好的候选人,可以让会话和他们的响应数据进行各种分析(聚合等)。

会话,调查问题和回复目前都保存在sql数据库中。我在想我会保留它并将数据并行放置。因此,当一个新的会话在一个代理机构下进行时,它会被添加到hadoop'文件'中,这样当整个数据集被调用时,它将被包括在内。

这个实现是否适用于hadoop,还是我仍处于关系数据库的限制之内?

1 个答案:

答案 0 :(得分:1)

我认为没有人能够明确地告诉你,是或否。我也不认为我从问题的措辞中完全掌握了你的程序将会做什么,但是,一般来说,Hadoop Map / Reduce在批量处理大量数据方面表现优异。它并不意味着是一个交互式(即实时)工具。所以如果你的系统:

1)将运行预定的工作来分析调查结果,生成趋势,汇总数据等.....那么是的,M / R将非常适合这种情况。

2)允许用户通过指定他们感兴趣的内容来搜索调查,并根据他们的输入实时获取报告....然后不,M / R可能不是最好的工具。您可能需要查看HBase。我还没有使用它,但是Hive是一个基于查询的工具,但我不确定它是如何“实时”的。此外,Drill是一个即将到来的项目,看起来很有希望以交互方式查询大数据。