选择大数据仓库

时间:2016-05-24 11:57:15

标签: google-bigquery amazon-redshift cloudera cassandra-2.0 bigdata

如今,我一直受到创建数据仓库以存储和处理大量数据的挑战。预计金额每天超过70亿次。数据应保存7天。平均事件大小约为0.5 - 1 Kb。我们需要将数据处理为:

  • 生成报告;
  • 训练模型。

目前我正在评估:

  • Google Bigquery
  • Redshift
  • Stratio + Cassandra + AWS + EMR + EBS
  • Cloudera + AWS

所以我对:

感兴趣
  • 您在公司内部使用的解决方案(框架,设置,数据库,节点数量等)
  • 任何实际成本示例/比较(如果可能)
  • 管理复杂性(devops)

2 个答案:

答案 0 :(得分:4)

我最近根据Mark Lit的系列文章比较了BigQuery,Spark,Hive,Presto,ElasticSearch,AWS Redshift,AWS EMR和Google Dataproc:

https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison

摘要摘要:

  • 相同的数据集(10亿行),相同的查询,许多技术和配置。
  • BigQuery运行查询的速度最快:2秒。
  • 默认情况下,BigQuery是唯一快速的:没有需要优化或需要数据预处理。在25分钟内加载了10亿行,并且可以查询数据。
  • 其他解决方案需要数小时才能加载数据(成本很高),并且比BigQuery慢很多倍。

但是你可以获得的最佳基准是你自己的:尝试BigQuery应该快速而简单。然后尝试找到另一个加载数据的平台,快速查询或接近价格。马克试过了,这些都是他的发现。

答案 1 :(得分:1)

我们使用BigQuery,专业人士:

  • SQL,基于列
  • 支持列中的JSON数据 - >优势,非结构化
  • 非常便宜1PB每月约$ 21k。
  • Google提供的托管服务,无需支出
  • 100 000行/秒的摄取能力
  • 请参阅链接演示文稿中的幻灯片#24

您找到的更多用例和体系结构:http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup