应用错误收集

Spark存储最佳实践

时间：2015-04-29 14:07:27

标签： amazon-s3 cassandra apache-spark hdfs

我打算部署一个Spark集群。 Spark支持许多存储架构，如HDFS，S3，HBase，Cassandra，Hive等。

由于我没有从Hadoop迁移到Spark，因此我没有现有的大数据＆＃39;存储，并仍然试图找出哪一个是最好的选择。

存储数据以最大限度地优化Spark的最佳方法是什么？我的用例是跟踪用户行为数据，并使用spark作为ETL来创建数据仓库和其他数据产品。

我想到的一件事是在每个工作节点中都有HDFS存储，就像Hadoop存储架构通常一样。

0 个答案:

没有答案