我是新来的火花,我试图理解为什么火花分批写入Cassandra(例如:savetocassandra操作),当批次对所有用例都不那么有效。当我们从cassandra读取并写回cassandra的火花作业时,除了优化spark.cassandra属性之外,应该从cassandra方面或火花方面真正关心什么。
是否记录了批量写入或未记录的批量写入?
答案 0 :(得分:1)
这不是Spark to Cassandra特有的,但是任何写入服务的过程
答案 1 :(得分:0)
这是一个很好的解释: 最大过载:调整Spark Cassandra连接器(Russell Spitzer,DataStax)| 2016年C *峰会 https://www.youtube.com/watch?v=cKIHRD6kUOc