优点& BigQuery与Amazon Redshift的合作

时间:2014-10-13 12:58:45

标签: google-bigquery amazon-redshift

比较Google BigQuery与Amazon Redshift表明两者都可以回答相同的要求,主要因成本计划而异。看起来Redshift配置(定义键和优化工作)与Google BigQuery相比可能会遇到加入表的问题。

有专业人士吗? Google BigQuery与Amazon Redshift的利弊列表?

2 个答案:

答案 0 :(得分:33)

我在reddit上发布了这个比较。很快,一位长期的RedShift从业者开始评论我的陈述。有关完整的对话,请参阅https://www.reddit.com/r/bigdata/comments/3jnam1/whats_your_preference_for_running_jobs_in_the_aws/cur518e

调整群集大小:

  • Redshift会要求您选择多个CPU,RAM,HD等,并将它们打开。
  • BigQuery不关心。随时使用,无需配置。

无所事事时的每小时成本:

  • Redshift会要求您每小时支付这些服务器的运行费用,即使您什么都不做。
  • 闲置时BigQuery只收取每GB每月0.02美元的费用。每GB每月2美分,就是这样。

查询速度:

  • Redshift性能受到您支付的CPU数量的限制
  • BigQuery透明地引入了所需的资源,可以在几秒钟内运行您的查询。

索引:

  • Redshift会要求您根据特定条件对数据进行索引(更正:分发),并且您只能根据此索引运行快速查询。
  • BigQuery没有索引。每次操作都很快。

吸尘:

  • Redshift需要定期维护和持续数小时的“真空”操作。您需要为这些服务器小时数付费。
  • BigQuery没有。忘记'吸尘'。

数据分区和分发:

  • Redshift要求您考虑如何在服务器中分发数据以保持性能提升 - 优化仅适用于某些查询。
  • BigQuery没有。只需运行您想要的任何查询。

直播实时数据:

  • Redshift不可能(?)。
  • BigQuery可以轻松处理每个表每秒最多100,000行的数据。

发展群集:

  • 如果你有更多的数据,或者更多的并发用户扩展将使用Redshift很痛苦。
  • BigQuery将正常运作。

多区域:

  • 您想要一个多区域Redshift以实现可用性和数据完整性吗?痛苦。
  • 默认情况下,BigQuery是多分区的。

要尝试BigQuery,您不需要信用卡或任何设置时间。试试吧(quick instructions to try BigQuery)。

当您准备将自己的数据放入BigQuery时,只需将您的JSON换行符号日志复制到Google Cloud Storage并导入它们。

请参阅云端数据仓库定价的深度指南: Understanding Cloud Pricing Part 3.2 - More Data Warehouses

答案 1 :(得分:11)

Amazon Redshift是一个标准的SQL数据库(基于Postgres),具有MPP功能,可以扩展。这些功能还要求您在某种程度上符合您的数据模型,以获得最佳性能。它支持大量的SQL标准,大多数可以与Postgres通信的工具可以不加改变地使用它。

BigQuery不是数据库in the sense that there it doesn't use standard SQL and doesn't provide JDBC/ODBC connectivity。它拥有自己的API和接口,是一项独特的服务。它为SQL查询提供有限的支持,但大多数用户通过自定义代码(Java,Python等)进行交互。一些第三方工具增加了对BigQuery的支持,但现有工具无法在没有修改的情况下工作。

tl; dr - Redshift更适合与现有工具交互并使用复杂的SQL。 BigQuery更适合自定义编码交互和不喜欢SQL的团队。

更新2017-04-17 - 这是一个更新的成本和速度差异摘要(包含在销售推销中,因此YMMV)。 TL; DR - Redshift通常更快,如果您经常查询数据会更便宜。 http://blog.panoply.io/a-full-comparison-of-redshift-and-bigquery


更新 - 由于我不断对此(♂️)投票,这是对另一个答案中项目的最新回复:

调整群集大小:

  • Redshift允许您根据使用情况量身定制成本。如果您想要尽可能快的查询,请选择SSD节点,如果您希望每GB的成本最低,请选择HDD节点。从小处开始,随时添加节点。

无所事事时的每小时成本:

  • Redshift让您的群集为查询做好准备,可以毫秒响应(结果缓存),并提供简单,可预测的月度账单。
  • 例如,即使某个脚本在周末意外运行10,000个巨型查询您的Redshift账单也不会增加

查询速度:

  • Redshift性能绝对在课堂上最佳,并且一直变得更快。在过去的6个月里快了3-5倍。

索引:

  • Redshift没有索引。 允许定义排序键,以便从快速到极快的速度优化性能。

吸尘:

  • 当您的群集拥有免费资源时,Redshift现在会自动运行例如ANALYZE和VACUUM DELETE等日常维护。

数据分区和分发:

  • Redshift绝不需要分发。 允许定义分发键,这样可以非常快速地建立大型连接。
  • {向竞争对手询问加入表现......}

直播实时数据:

  • Redshift有2个选择
    • 使用Amazon Kinesis Firehose将实时数据流式传输到Redshift。
    • 通过使用Redshift Spectrum外部表格立即(并以高速度)立即在S3上查询您的实时情况,完全跳过摄取

发展群集:

  • Redshift可以在几分钟内弹性调整大多数群集的大小。

多区域:

  • Redshift无缝替换任何发生故障的硬件,并持续备份您的数据,包括跨区域(如果需要)。