伙计们,我正在使用以下代码使用Spark从cacssandra读取整个表
val ds = sqlContext.read.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "part", "keyspace" ->
"electronic_parts","spark.cassandra.input.fetch.split.size.in.mbs" -> "500")).load()
我尝试了这种拆分大小设置,但并没有给我带来太大的不同。以镶木地板格式阅读和书写几乎要花费几个小时。有没有办法在半小时内完成它。到目前为止,我正在进行任何处理,几乎使用49节点集群。如果我做一些处理需要花费更多时间。