Apache Drill有一个很好的功能,可以从许多传入的数据集中制作镶木地板文件,但似乎以后没有很多关于如何使用这些镶木地板文件的信息 - 特别是在Hive中。
Hive有没有办法利用那些“1_0_0.parquet”等文件?也许创建一个表并从镶木地板文件加载数据或创建一个表,并以某种方式将这些镶木地板文件放在hdfs中,以便Hive读取它?
答案 0 :(得分:1)
我遇到过这个问题,如果您使用的是Cloudera发行版,则可以使用impala创建表(Impala和Hive共享Metastore),它允许从镶木地板文件中创建表。不幸的是,Hive不允许这样做
CREATE EXTERNAL TABLE table_from_fileLIKE PARQUET '/user/etl/destination/datafile1.parquet'
STORED AS PARQUET
LOCATION '/user/test/destination';