为什么spark内部使用批量写入Cassandra

时间:2017-10-30 19:45:28

标签: scala apache-spark datastax-enterprise spark-cassandra-connector cassandra-3.0

我是新来的火花,我试图理解为什么火花分批写入Cassandra(例如:savetocassandra操作),当批次对所有用例都不那么有效。当我们从cassandra读取并写回cassandra的火花作业时,除了优化spark.cassandra属性之外,应该从cassandra方面或火花方面真正关心什么。

是否记录了批量写入或未记录的批量写入?

2 个答案:

答案 0 :(得分:1)

这不是Spark to Cassandra特有的,但是任何写入服务的过程

  1. Spark通过API写入cassandra而不是文件
  2. 批处理始终加速放置,就像在一个API调用中批量放置多行一样。
  3. 批处理导致难以处理一个语义。
  4. 您可以随时编写自己的Spark任务来执行一次。
  5. 我认为单一与批次应该是可配置的

答案 1 :(得分:0)

这是一个很好的解释: 最大过载:调整Spark Cassandra连接器(Russell Spitzer,DataStax)| 2016年C *峰会 https://www.youtube.com/watch?v=cKIHRD6kUOc