我正在做一些关于在AWS工作的Redshift和Hive的研究。
我有一个在Spark中运行的应用程序,它位于本地集群中,与Apache Hive一起工作。然后我们将迁移到AWS。
我们发现有一个Redshift数据仓库解决方案。 Redshift是一个Columnar数据库,对于查询Tb数据非常快,没有大问题。使用Redshift不会花费太多时间来维护。但我有一个问题,Redshift对Hive的表现如何?
如果我使用EMR存储Hive,在EMR中设置存储并使用Hive处理Metastore,则需要使用Spark来处理数据。
EMR中Redshift相对于Hive的性能如何? Redshift是Apache Spark在性能方面的最佳解决方案? 或者使用Hive我会用火花来获得很多性能来补偿维护时间吗?
------- ------- EDIT
我读了更多关于它的内容,我发现Redshift将如何与EMR中的Spark一起使用。 根据我的看法,当您从Redshift调用数据时,它会将信息加载到S3存储桶,如下所示:
找到的这些信息据此,对于EMR,Hive比Redshift更快吗?