使用Spark Performance Issue从Cassandra读取5亿条记录

时间:2018-07-05 08:27:40

标签: apache-spark cassandra

伙计们,我正在使用以下代码使用Spark从cacssandra读取整个表

val ds = sqlContext.read.format("org.apache.spark.sql.cassandra")
        .options(Map( "table" -> "part", "keyspace" -> 
      "electronic_parts","spark.cassandra.input.fetch.split.size.in.mbs" -> "500")).load()

我尝试了这种拆分大小设置,但并没有给我带来太大的不同。以镶木地板格式阅读和书写几乎要花费几个小时。有没有办法在半小时内完成它。到目前为止,我正在进行任何处理,几乎使用49节点集群。如果我做一些处理需要花费更多时间。

0 个答案:

没有答案