我们有一个Apache Spark集群,用于分析存储在HDFS(.parquet)中的数据。 该解决方案在性能方面是最佳的,但它并不像我们所希望的那样是灾难安全的,事实上,HDFS架构只有一个故障点(namenode)甚至使用两个namenode(你只有2点故障,但这还不够)。 为了提高我们的集群容错能力,我们希望转向另一个像Cassandra这样的数据存储解决方案。 问题是:
由于
利玛
答案 0 :(得分:0)
有关于数据位置,spark和Cassandra的文章,所以是的,有可能:
https://www.slideshare.net/SparkSummit/cassandra-and-spark-optimizing-russell-spitzer-1
我没有使用Spark在HDFS和Cassandra上进行任何性能检查,我相信它会因不同的工作流程而有所不同,但是由于Netflix和Microsoft使用Cassandra和Spark,我相信在大多数情况下性能是可以接受的,并且可能是数据提取速度,ETL存在/不存在与分析过程速度之间的权衡。
关于hadoop单点故障 - 如果你将运行具有复制因子3和一致性级别仲裁的Cassandra,你将得到相同的2个节点,这将使数据不可用:),记住它。
也许考虑MapR hadoop发布,他们试图解决namenode问题。