动机:我想将数据加载到Apache Drill中。我知道Drill可以处理JSON输入,但我想看看它如何在Parquet数据上执行。
有没有办法在没有先将数据加载到Hive等中然后使用其中一个Parquet连接器生成输出文件的情况下执行此操作?
答案 0 :(得分:5)
Kite支持通过命令行实用程序kite-dataset
将JSON导入Avro和Parquet格式。
首先,您将推断出JSON的架构:
kite-dataset json-schema sample-file.json -o schema.avsc
然后您可以使用该文件创建Parquet Hive表:
kite-dataset create mytable --schema schema.avsc --format parquet
最后,您可以将JSON加载到数据集中。
kite-dataset json-import sample-file.json mytable
您还可以导入直接存储在HDFS中的整个。在这种情况下,Kite将使用MR作业进行导入。
答案 1 :(得分:3)
您实际上可以使用Drill本身从任何查询的输出创建一个镶木地板文件。
create table student_parquet as select * from `student.json`;
以上这条线应该足够好了。 Drill根据字段中的数据解释类型。您可以替换自己的查询并创建镶木地板文件。