应用错误收集

Cassandra与HDFS一起存储分析数据

时间：2017-03-30 07:33:53

标签： performance apache-spark cassandra hdfs

我们有一个Apache Spark集群，用于分析存储在HDFS（.parquet）中的数据。该解决方案在性能方面是最佳的，但它并不像我们所希望的那样是灾难安全的，事实上，HDFS架构只有一个故障点（namenode）甚至使用两个namenode（你只有2点故障，但这还不够）。为了提高我们的集群容错能力，我们希望转向另一个像Cassandra这样的数据存储解决方案。问题是：

使用Cassandra作为数据存储区，Spark能够像使用HDFS一样利用DataLocality吗？
此更改如何影响效果？

由于

利玛

1 个答案:

答案 0 :(得分：0)

有关于数据位置，spark和Cassandra的文章，所以是的，有可能：

https://www.slideshare.net/SparkSummit/cassandra-and-spark-optimizing-russell-spitzer-1

我没有使用Spark在HDFS和Cassandra上进行任何性能检查，我相信它会因不同的工作流程而有所不同，但是由于Netflix和Microsoft使用Cassandra和Spark，我相信在大多数情况下性能是可以接受的，并且可能是数据提取速度，ETL存在/不存在与分析过程速度之间的权衡。

关于hadoop单点故障 - 如果你将运行具有复制因子3和一致性级别仲裁的Cassandra，你将得到相同的2个节点，这将使数据不可用:)，记住它。

也许考虑MapR hadoop发布，他们试图解决namenode问题。