应用错误收集

当从Spark到cassandra插入数据时，我注意到我们的管道中的吞吐量非常低（每个核心小于1 MB / s）。尝试调整写conf（spark.cassandra.output.concurrent.writes，spark.cassandra.output.batch.grouping.key和spark.cassandra.output.batch.size.rows）时，我很快就会遇到写超时。

我的问题：

在批量写入数据时（通过Spark），是否建议增加cassandra写入超时？
是否可以仅针对Spark工作负载来增加它？还是仅用于批量写入？
spark.cassandra.output.batch.size.bytes的默认值为1024，我发现它的默认值太低了，我想在大多数情况下，它对应于1或2行，我遗漏了什么吗？

我正在使用spark-cassandra-connector 2.4.3

调整写conf时spark cassandra连接器写超时

0 个答案: