如何删除数据框中的空分区?

时间:2015-07-21 09:35:53

标签: apache-spark apache-spark-sql spark-dataframe

我需要从Dataframe中删除空分区

我们有两个Dataframe,都是使用sqlContext创建的。数据帧的构建和组合如下

import org.apache.spark.sql.{SQLContext}

val sqlContext = new SQLContext(sc)

// Loading Dataframe 1
val csv1 = "s3n://xxxxx:xxxxxx@xxxx/xxx.csv"
val csv1DF = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(csv1) 

// Loading Dataframe 2
val csv2 = "s3n://xxxxx:xxxxxx@xxxx/xxx.csv"
val csv2DF = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(csv1) 

// Combining dataframes 
val combinedDF = csv1.
                join(csv2 csv1("column_1") === csv2("column_2"))

现在combinedDF的分区数为200。 从here开始,当我们使用连接时,发现默认的分区数为200。

在某些情况下,dataframe / csv并不大,并且会得到许多空分区,这会导致以后部分代码出现问题。

那么如何删除这些空分区?

0 个答案:

没有答案