我有一个可以并行化的解决方案,但我(还)没有使用hadoop / nosql的经验,而且我不确定哪种解决方案最适合我的需求。从理论上讲,如果我有无限的CPU,我的结果应该立即返回。所以,任何帮助将不胜感激。谢谢!
这就是我所拥有的:
我无法预先计算我的聚合值,但由于每个键都是独立的,因此应该可以轻松扩展。目前,我将这些数据放在postgres数据库中,其中每个数据集都在自己的分区中。
作为概念证明,我尝试了hadoop:
从我粗略的概念验证中,我可以看到这将很好地扩展,但我可以看到hadoop / hdfs有延迟我已经读过它通常不用于实时查询(即使我很好在5秒内将结果返回给用户)。
有关我应如何处理的任何建议?我当时正考虑尝试HBase以获得感觉。我应该看看Hive吗?卡桑德拉?伏地魔?
谢谢!
答案 0 :(得分:6)
Hive或Pig似乎不会帮助你。基本上每个都编译为一个或多个map / reduce作业,因此响应不能在5秒内
HBase可能有效,但您的基础设施有点小,无法获得最佳性能。我不明白为什么你不能预先计算每列的摘要统计数据。你应该查看计算运行平均值,这样你就不必减轻重量。
结帐http://en.wikipedia.org/wiki/Standard_deviation
stddev(X)= sqrt(E [X ^ 2] - (E [X])^ 2)
这意味着你可以通过
获得AB的stddevSQRT(E [AB ^ 2] - (E [AB])^ 2)。 E [AB ^ 2]是(sum(A ^ 2)+ sum(B ^ 2))/(| A | + | B |)
答案 1 :(得分:4)
由于您的数据似乎非常均匀,我肯定会看一下Google BigQuery - 您可以在没有MapReduce步骤(您自己)的情况下摄取和分析数据,RESTful API将帮助您根据您的查询创建Web应用程序。事实上,根据您希望如何设计应用程序,您可以创建一个相当实时的'应用
答案 2 :(得分:2)
在开源领域没有一个好的解决方案是严重的问题。在商业领域,像greenplum / netezza这样的MPP数据库应该这样做。 理想情况下,你需要谷歌的Dremel(BigQuery背后的引擎)。我们正在开发开源克隆,但需要一些时间...... 无论使用何种引擎,我认为解决方案应该包括将整个数据集保存在内存中 - 它应该让您知道所需的群集大小。
答案 3 :(得分:2)
如果我理解正确,您只需要一次汇总一列 您可以不同方式存储数据以获得更好的结果 在HBase看起来像 今天的设置中每个数据列的表和过滤字段的另一个表(type_ids) 今天设置中每个键的行 - 您可能想要考虑如何将过滤器字段合并到密钥中以进行有效过滤 - 否则您必须进行两阶段读取( 今天设置中每个表的列(即几千列) HBase不介意添加新列,并且在不存储不存在的列的数据的意义上是稀疏的。 当你读到一行时,你会得到所有你可以做的相关值。等等很容易
答案 4 :(得分:0)
您可能希望使用普通的旧数据库。听起来你没有交易系统。因此,您可以只使用一个或两个大表。当您需要连接大数据时,SQL会出现问题。但是,由于你的数据集听起来不像你需要加入,你应该没问题。您可以设置索引以查找数据集,也可以使用SQL或app math。