调整写conf时spark cassandra连接器写超时

时间:2020-11-04 10:59:22

标签: performance apache-spark cassandra

当从Spark到cassandra插入数据时,我注意到我们的管道中的吞吐量非常低(每个核心小于1 MB / s)。 尝试调整写conf(spark.cassandra.output.concurrent.writesspark.cassandra.output.batch.grouping.keyspark.cassandra.output.batch.size.rows)时,我很快就会遇到写超时。

我的问题:

  • 在批量写入数据时(通过Spark),是否建议增加cassandra写入超时?
  • 是否可以仅针对Spark工作负载来增加它?还是仅用于批量写入?
  • spark.cassandra.output.batch.size.bytes的默认值为1024,我发现它的默认值太低了,我想在大多数情况下,它对应于1或2行,我遗漏了什么吗?

我正在使用spark-cassandra-connector 2.4.3

0 个答案:

没有答案