当从Spark到cassandra插入数据时,我注意到我们的管道中的吞吐量非常低(每个核心小于1 MB / s)。
尝试调整写conf(spark.cassandra.output.concurrent.writes
,spark.cassandra.output.batch.grouping.key
和spark.cassandra.output.batch.size.rows
)时,我很快就会遇到写超时。
我的问题:
spark.cassandra.output.batch.size.bytes
的默认值为1024,我发现它的默认值太低了,我想在大多数情况下,它对应于1或2行,我遗漏了什么吗?我正在使用spark-cassandra-connector 2.4.3