我在同一DC和同一机架上有一个3节点群集。 Keyspace的Replication Factor为2,我有一个Spark应用程序,它使用Kafka的数据形式,现在我将RDD保存到Cassandra中,
rdd.saveToCassandra("db_name", "table_name")
我的时间间隔为10秒,每批将有1万条记录,每批大小约为2.5 MB
在Spark Conf中,我已设置
.set("spark.cassandra.output.consistency.level", "ONE")
插入应用程序大约需要2-3秒。为什么这样?我很乐意。之前,当我将1节点机器与RF-1一起使用时,我能够以0.8-1秒/批的速度插入。那么,为什么节点和RF增加之后会有这么大的延迟。
我是否需要在Spark Conf或cassandra方面进行其他设置以提高写入速度。