Cassandra与HDFS一起存储分析数据

时间:2017-03-30 07:33:53

标签: performance apache-spark cassandra hdfs

我们有一个Apache Spark集群,用于分析存储在HDFS(.parquet)中的数据。 该解决方案在性能方面是最佳的,但它并不像我们所希望的那样是灾难安全的,事实上,HDFS架构只有一个故障点(namenode)甚至使用两个namenode(你只有2点故障,但这还不够)。 为了提高我们的集群容错能力,我们希望转向另一个像Cassandra这样的数据存储解决方案。 问题是:

  • 使用Cassandra作为数据存储区,Spark能够像使用HDFS一样利用DataLocality吗?
  • 此更改如何影响效果?

由于

利玛

1 个答案:

答案 0 :(得分:0)

有关于数据位置,spark和Cassandra的文章,所以是的,有可能:

https://www.slideshare.net/SparkSummit/cassandra-and-spark-optimizing-russell-spitzer-1

我没有使用Spark在HDFS和Cassandra上进行任何性能检查,我相信它会因不同的工作流程而有所不同,但是由于Netflix和Microsoft使用Cassandra和Spark,我相信在大多数情况下性能是可以接受的,并且可能是数据提取速度,ETL存在/不存在与分析过程速度之间的权衡。

关于hadoop单点故障 - 如果你将运行具有复制因子3和一致性级别仲裁的Cassandra,你将得到相同的2个节点,这将使数据不可用:),记住它。

也许考虑MapR hadoop发布,他们试图解决namenode问题。