Redshift上的Apahce Spark和HIVE EMR上的Apache Spark

时间:2017-06-13 16:47:06

标签: amazon-web-services apache-spark hive amazon-redshift amazon-emr

我正在做一些关于在AWS工作的Redshift和Hive的研究。

我有一个在Spark中运行的应用程序,它位于本地集群中,与Apache Hive一起工作。然后我们将迁移到AWS。

我们发现有一个Redshift数据仓库解决方案。 Redshift是一个Columnar数据库,对于查询Tb数据非常快,没有大问题。使用Redshift不会花费太多时间来维护。但我有一个问题,Redshift对Hive的表现如何?

如果我使用EMR存储Hive,在EMR中设置存储并使用Hive处理Metastore,则需要使用Spark来处理数据。

EMR中Redshift相对于Hive的性能如何? Redshift是Apache Spark在性能方面的最佳解决方案? 或者使用Hive我会用火花来获得很多性能来补偿维护时间吗?

------- ------- EDIT

我读了更多关于它的内容,我发现Redshift将如何与EMR中的Spark一起使用。 根据我的看法,当您从Redshift调用数据时,它会将信息加载到S3存储桶,如下所示:

Spark reading from Redshift

我在Databricks Blog

找到的这些信息

据此,对于EMR,Hive比Redshift更快吗?

0 个答案:

没有答案