最大化Cassandra中RDD的写入吞吐量的理想策略

时间:2019-03-28 08:45:54

标签: scala apache-spark cassandra datastax-enterprise cassandra-3.0

我在同一DC和同一机架上有一个3节点群集。 Keyspace的Replication Factor为2,我有一个Spark应用程序,它使用Kafka的数据形式,现在我将RDD保存到Cassandra中,

rdd.saveToCassandra("db_name", "table_name")

我的时间间隔为10秒,每批将有1万条记录,每批大小约为2.5 MB

在Spark Conf中,我已设置

.set("spark.cassandra.output.consistency.level", "ONE")

插入应用程序大约需要2-3秒。为什么这样?我很乐意。之前,当我将1节点机器与RF-1一起使用时,我能够以0.8-1秒/批的速度插入。那么,为什么节点和RF增加之后会有这么大的延迟。

我是否需要在Spark Conf或cassandra方面进行其他设置以提高写入速度。

0 个答案:

没有答案