Spark存储最佳实践

时间:2015-04-29 14:07:27

标签: amazon-s3 cassandra apache-spark hdfs

我打算部署一个Spark集群。 Spark支持许多存储架构,如HDFS,S3,HBase,Cassandra,Hive等。

由于我没有从Hadoop迁移到Spark,因此我没有现有的大数据'存储,并仍然试图找出哪一个是最好的选择。

存储数据以最大限度地优化Spark的最佳方法是什么? 我的用例是跟踪用户行为数据,并使用spark作为ETL来创建数据仓库和其他数据产品。

我想到的一件事是在每个工作节点中都有HDFS存储,就像Hadoop存储架构通常一样。

0 个答案:

没有答案