apache-spark - 使用Spark Performance Issue从Cassandra读取5亿条记录

伙计们，我正在使用以下代码使用Spark从cacssandra读取整个表

val ds = sqlContext.read.format("org.apache.spark.sql.cassandra")
        .options(Map( "table" -> "part", "keyspace" -> 
      "electronic_parts","spark.cassandra.input.fetch.split.size.in.mbs" -> "500")).load()

我尝试了这种拆分大小设置，但并没有给我带来太大的不同。以镶木地板格式阅读和书写几乎要花费几个小时。有没有办法在半小时内完成它。到目前为止，我正在进行任何处理，几乎使用49节点集群。如果我做一些处理需要花费更多时间。

使用Spark Performance Issue从Cassandra读取5亿条记录

0 个答案: