应用错误收集

选择大数据仓库

时间：2016-05-24 11:57:15

标签： google-bigquery amazon-redshift cloudera cassandra-2.0 bigdata

如今，我一直受到创建数据仓库以存储和处理大量数据的挑战。预计金额每天超过70亿次。数据应保存7天。平均事件大小约为0.5 - 1 Kb。我们需要将数据处理为：

生成报告;
训练模型。

目前我正在评估：

Google Bigquery
Redshift
Stratio + Cassandra + AWS + EMR + EBS
Cloudera + AWS

所以我对：

感兴趣

您在公司内部使用的解决方案（框架，设置，数据库，节点数量等）
任何实际成本示例/比较（如果可能）
管理复杂性（devops）

2 个答案:

答案 0 :(得分：4)

我最近根据Mark Lit的系列文章比较了BigQuery，Spark，Hive，Presto，ElasticSearch，AWS Redshift，AWS EMR和Google Dataproc：

https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison

摘要摘要：

相同的数据集（10亿行），相同的查询，许多技术和配置。
BigQuery运行查询的速度最快：2秒。
默认情况下，BigQuery是唯一快速的：没有需要优化或需要数据预处理。在25分钟内加载了10亿行，并且可以查询数据。
其他解决方案需要数小时才能加载数据（成本很高），并且比BigQuery慢很多倍。

但是你可以获得的最佳基准是你自己的：尝试BigQuery应该快速而简单。然后尝试找到另一个加载数据的平台，快速查询或接近价格。马克试过了，这些都是他的发现。

答案 1 :(得分：1)

我们使用BigQuery，专业人士：

SQL，基于列
支持列中的JSON数据 - ＆gt;优势，非结构化
非常便宜1PB每月约$ 21k。
Google提供的托管服务，无需支出
100 000行/秒的摄取能力
请参阅链接演示文稿中的幻灯片#24

您找到的更多用例和体系结构：http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup