使用镶木地板文件元数据创建配置表

时间:2015-11-10 08:25:23

标签: scala apache-spark hive parquet

我写了一个DataFrame作为镶木地板文件。而且,我想使用Hive中的元数据来阅读该文件。

撰写木地板写作的输出

_common_metadata  part-r-00000-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet  part-r-00002-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet  _SUCCESS
_metadata         part-r-00001-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet  part-r-00003-0def6ca1-0f54-4c53-b402-662944aa0be9.gz.parquet

Hive表

CREATE  TABLE testhive
ROW FORMAT SERDE
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  '/home/gz_files/result';



FAILED: SemanticException [Error 10043]: Either list of columns or a custom serializer should be specified

如何从镶木地板文件中推断元数据?

如果我打开_common_metadata我有以下内容,

PAR1LHroot
%TSN%
%TS%
%Etype%
)org.apache.spark.sql.parquet.row.metadata▒{"type":"struct","fields":[{"name":"TSN","type":"string","nullable":true,"metadata":{}},{"name":"TS","type":"string","nullable":true,"metadata":{}},{"name":"Etype","type":"string","nullable":true,"metadata":{}}]}

或者如何解析元数据文件?

5 个答案:

答案 0 :(得分:10)

这是我用来从镶木地板文件中获取元数据以创建Hive表的解决方案。

首先启动一个spark-shell(或者把它全部编译成一个Jar并用spark-submit运行它,但shell更容易上架)

import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.DataFrame


val df=sqlContext.parquetFile("/path/to/_common_metadata")

def creatingTableDDL(tableName:String, df:DataFrame): String={
  val cols = df.dtypes
  var ddl1 = "CREATE EXTERNAL TABLE "+tableName + " ("
  //looks at the datatypes and columns names and puts them into a string
  val colCreate = (for (c <-cols) yield(c._1+" "+c._2.replace("Type",""))).mkString(", ")
  ddl1 += colCreate + ") STORED AS PARQUET LOCATION '/wherever/you/store/the/data/'"
  ddl1
}

val test_tableDDL=creatingTableDDL("test_table",df,"test_db")

它将为您提供Hive将用于每个列的数据类型,因为它们存储在Parquet中。 E.G:CREATE EXTERNAL TABLE test_table (COL1 Decimal(38,10), COL2 String, COL3 Timestamp) STORED AS PARQUET LOCATION '/path/to/parquet/files'

答案 1 :(得分:7)

我想扩展James Tobin的回答。有一个StructField类,它提供Hive的数据类型而不进行字符串替换。

// Tested on Spark 1.6.0.

import org.apache.spark.sql.DataFrame

def dataFrameToDDL(dataFrame: DataFrame, tableName: String): String = {
    val columns = dataFrame.schema.map { field =>
        "  " + field.name + " " + field.dataType.simpleString.toUpperCase
    }

    s"CREATE TABLE $tableName (\n${columns.mkString(",\n")}\n)"
}

这解决了IntegerType问题。

scala> val dataFrame = sc.parallelize(Seq((1, "a"), (2, "b"))).toDF("x", "y")
dataFrame: org.apache.spark.sql.DataFrame = [x: int, y: string]

scala> print(dataFrameToDDL(dataFrame, "t"))
CREATE TABLE t (
  x INT,
  y STRING
)

这适用于任何DataFrame,而不仅仅适用于Parquet。 (例如,我在JDBC DataFrame中使用它。)

作为额外的好处,如果您的目标DDL支持可为空的列,您可以通过选中StructField.nullable来扩展该功能。

答案 2 :(得分:1)

对Victor的一个小改进(在field.name上添加引号)并修改为将表绑定到本地镶木地板文件(在spark 1.6.1上测试)

def dataFrameToDDL(dataFrame: DataFrame, tableName: String, absFilePath: String): String = {
    val columns = dataFrame.schema.map { field =>
      "  `" + field.name + "` " + field.dataType.simpleString.toUpperCase
    }
    s"CREATE EXTERNAL TABLE $tableName (\n${columns.mkString(",\n")}\n) STORED AS PARQUET LOCATION '"+absFilePath+"'"
  }

另请注意:

  • 由于SQLContext不支持创建,因此需要HiveContext 外部表。
  • 镶木地板文件夹的路径必须是绝对路径

答案 3 :(得分:0)

我有同样的问题。然而,由于Parquet支持模式演变,因此可能很难从实际方面实现:

http://www.cloudera.com/content/www/en-us/documentation/archive/impala/2-x/2-0-x/topics/impala_parquet.html#parquet_schema_evolution_unique_1

例如,您可以向表中添加新列,而不必触摸表中已有的数据。只有新的数据文件才会有新的元数据(与以前的版本兼容)。

自Spark 1.5.0起默认关闭模式合并,因为它是“相对昂贵的操作” http://spark.apache.org/docs/latest/sql-programming-guide.html#schema-merging 因此,推断最近的架构可能并不像听起来那么简单。虽然快速和肮脏的方法很可能,例如通过解析

的输出
$ parquet-tools schema /home/gz_files/result/000000_0

答案 4 :(得分:0)

实际上,Impala支持

CREATE TABLE LIKE PARQUET

(完全没有栏目部分):

http://www.cloudera.com/content/www/en-us/documentation/archive/impala/2-x/2-1-x/topics/impala_create_table.html

你的问题的标签有“hive”和“spark”,我不认为这是在Hive中实现的,但是如果你使用CDH,它可能就是你要找的。