实时使用cassandra进行大数据处理

时间:2014-05-24 07:05:12

标签: cassandra hbase apache-pig presto shark-sql

我正在为销售人员开发一个应用程序。我无法弄清楚如何在我的应用程序中管理大数据。以下是情景。

我根据以下标准对地点进行了划分。

国家=> State => City => Territory =>面积=>出口。

我管理日常销售的表结构大致详述如下。

出口ID - 1,2,3,4,5,6 ......

用户ID - EMP001,EMP002,EMP003,EMP004,EMP005,EMP006 ......

产品编号 - 78,54,21,11,09,83 ..

数量 - 12,34,67,43,70,03 ..

日期&时间 - 01/05/2014 - 11.00,01 / 05/2014 - 12.00,01 / 05/2014 - 14.00 ..

和其他文件结构。 基于上述数据结构,将有许多报告将实时查看。

我们每天有100万行插入。我已经将Casandra缩小为NO-SQL数据库。

现在我需要一个可以查询和管理实时分析的数据库。听说并阅读这些开源工具,如Hbase,Pig,Hive,Presto DB,Impala,Sharp,Shark等。

目前,我无法判断哪个最适合我的应用程序进行实时分析和预测产品销售。

我们将非常感谢您的帮助和指导。

谢谢

1 个答案:

答案 0 :(得分:1)

Presto + Cassandra非常适合你。 Cassandra + Shark也可以。