将JSON对象的文件转换为Parquet文件

时间:2014-02-11 00:54:12

标签: json apache parquet apache-drill

动机:我想将数据加载到Apache Drill中。我知道Drill可以处理JSON输入,但我想看看它如何在Parquet数据上执行。

有没有办法在没有先将数据加载到Hive等中然后使用其中一个Parquet连接器生成输出文件的情况下执行此操作?

2 个答案:

答案 0 :(得分:5)

Kite支持通过命令行实用程序kite-dataset将JSON导入Avro和Parquet格式。

首先,您将推断出JSON的架构:

kite-dataset json-schema sample-file.json -o schema.avsc

然后您可以使用该文件创建Parquet Hive表:

kite-dataset create mytable --schema schema.avsc --format parquet

最后,您可以将JSON加载到数据集中。

kite-dataset json-import sample-file.json mytable

您还可以导入直接存储在HDFS中的整个。在这种情况下,Kite将使用MR作业进行导入。

答案 1 :(得分:3)

您实际上可以使用Drill本身从任何查询的输出创建一个镶木地板文件。

create table student_parquet as select * from `student.json`;

以上这条线应该足够好了。 Drill根据字段中的数据解释类型。您可以替换自己的查询并创建镶木地板文件。