scala - 为什么spark内部使用批量写入Cassandra

为什么spark内部使用批量写入Cassandra

时间：2017-10-30 19:45:28

标签： scala apache-spark datastax-enterprise spark-cassandra-connector cassandra-3.0

我是新来的火花，我试图理解为什么火花分批写入Cassandra（例如：savetocassandra操作），当批次对所有用例都不那么有效。当我们从cassandra读取并写回cassandra的火花作业时，除了优化spark.cassandra属性之外，应该从cassandra方面或火花方面真正关心什么。

是否记录了批量写入或未记录的批量写入？

2 个答案:

答案 0 :(得分：1)

这不是Spark to Cassandra特有的，但是任何写入服务的过程

Spark通过API写入cassandra而不是文件
批处理始终加速放置，就像在一个API调用中批量放置多行一样。
批处理导致难以处理一个语义。
您可以随时编写自己的Spark任务来执行一次。
我认为单一与批次应该是可配置的

答案 1 :(得分：0)

这是一个很好的解释：最大过载：调整Spark Cassandra连接器（Russell Spitzer，DataStax）| 2016年C *峰会 https://www.youtube.com/watch?v=cKIHRD6kUOc