Question

Apache Drill有一个很好的功能，可以从许多传入的数据集中制作镶木地板文件，但似乎以后没有很多关于如何使用这些镶木地板文件的信息 - 特别是在Hive中。

Hive有没有办法利用那些“1_0_0.parquet”等文件？也许创建一个表并从镶木地板文件加载数据或创建一个表，并以某种方式将这些镶木地板文件放在hdfs中，以便Hive读取它？

Answer 1

我遇到过这个问题，如果您使用的是Cloudera发行版，则可以使用impala创建表（Impala和Hive共享Metastore），它允许从镶木地板文件中创建表。不幸的是，Hive不允许这样做

CREATE EXTERNAL TABLE table_from_fileLIKE PARQUET     '/user/etl/destination/datafile1.parquet'
STORED AS PARQUET
LOCATION '/user/test/destination';