对于分析型柱状数据库有什么建议可以修改吗?

时间:2018-07-22 07:37:09

标签: analytics 360-degrees apache-kudu

我需要建立一个客户360度数据库,该数据库需要:

  • 一个宽列表,每个客户都是一行,有很多列(例如> 1000)
  • 我们每天有大约20个批量更新分析作业。每个分析作业都会查询并更新所有行的一小列列。它包括汇总数据以进行报告,以及加载/保存数据以供机器学习算法使用。
  • 我们在多列中更新了客户的信息,每天有<= 100万行。更新工作负载分布在整个工作时间中。我们有2亿多行。

对于这些需求,我认为一个可修改的列式数据库将是一个完美的选择:它可以按列进行查询和聚合,这对于分析是最理想的,并且可以在一天内更新数百万次更改。我找到的最相同的项目是Apache Kudu,但是它的300列限制是一个很大的限制,我们有1000多个。

我们更喜欢一个开源项目。

有什么建议吗?

1 个答案:

答案 0 :(得分:0)

我会回答我自己的问题,因为我们的解决方案现在可以正常工作了。

我们没有将统一的数据库用于分析和OLTP工作负载,而是将工作负载分为2:分析工作负载将由HDFS中的Parquet表提供服务,而OLTP一个将由HBase服务。

我们当然必须复制(部分)客户数据,但是我们愿意支付的存储和计算能力成本却不高。