标签: amazon-s3 cassandra apache-spark hdfs
我打算部署一个Spark集群。 Spark支持许多存储架构,如HDFS,S3,HBase,Cassandra,Hive等。
由于我没有从Hadoop迁移到Spark,因此我没有现有的大数据'存储,并仍然试图找出哪一个是最好的选择。
存储数据以最大限度地优化Spark的最佳方法是什么? 我的用例是跟踪用户行为数据,并使用spark作为ETL来创建数据仓库和其他数据产品。
我想到的一件事是在每个工作节点中都有HDFS存储,就像Hadoop存储架构通常一样。