Question

假设我使用partitionBy将一些数据保存到磁盘，例如按日期，所以我的数据如下：

/mydata/d=01-01-2018/part-00000
/mydata/d=01-01-2018/part-00001
...
/mydata/d=02-01-2018/part-00000
/mydata/d=02-01-2018/part-00001
...

当我使用Hive config和DataFrame读取数据时，

val df = sparkSession.sql(s"select * from $database.$tableName")

我知道：

对列d的过滤查询将下推
如果我尝试按d进行分区（例如GROUP BY d），则不会发生混洗

但是，假设我不知道分区键是什么（某些上游作业会写入数据，并且没有约定）。如何让Spark告诉我哪个是分区键，在这种情况下为d。同样，如果我们有多个分区（例如按月，周，日）。

目前我们拥有的最好的代码真的很丑：

def getPartitionColumnsForHiveTable(databaseTableName: String)(implicit sparkSession: SparkSession): Set[String] = {
    val cols = sparkSession.
      sql(s"desc $databaseTableName")
      .select("col_name")
      .collect
      .map(_.getAs[String](0))
      .dropWhile(r => !r.matches("# col_name"))
    if (cols.isEmpty) {
      Set()
    } else {
      cols.tail.toSet
    }
  }

Answer 1

假设分区列值中没有=和/，您可以这样做：

val df = spark.sql("show partitions database.test_table")

val partitionedCols: Set[String] = try { 
  df.map(_.getAs[String](0)).first.split('/').map(_.split("=")(0)).toSet
} catch {
  case e: AnalysisException => Set.empty[String]
}

您应该获得一个Array[String]，其中包含分区的列名称。

Answer 2

您可以使用sql语句获取此信息，show create table <tablename>，describe extended <tablename>或show partitions <tablename>。最后一个给出最简单的输出来解析：

val partitionCols = spark.sql("show partitions <tablename>").as[String].first.split('/').map(_.split("=").head)

如何使用Spark确定分区键/列

2 个答案: