如果我有4个CPDS,每个CPDS有3台机器,并且有一个复制因子3,其中实现了mapreduce。考虑到它同时快速,您认为哪种程度的一致性是最合适的?
答案 0 :(得分:0)
对于MapReduce作业,我建议最快使用LOCAL_ONE
。这当然取决于您的应用程序,但通常对于Spark作业,这种一致性级别最常使用。
但我真的很想知道这个设置 - 在你的情况下,你在每台机器上都有你的数据副本。在典型的设置中,分析工作负载(MapReduce或Spark)通常被放入单独的数据中心,其中RF与事务不同 - 这为您提供了更好的利用率。例如,您可以将2个DC组合成一台6台机器,并使用RF = 2,这样您就可以将更多数据放入该DC。但是,当然,这取决于MapReduce作业的可用性要求 - 如果DC不可用,您是否可以使用一些停机时间。