我有一个需要以 PARQUET 格式创建的HIVE表(测试)。我将使用一堆 SEQUENCE 文件来创建并插入到表中。
一旦创建了表,有没有一种方法可以转换成PARQUET?我的意思是说
CREATE TABLE default.test( user_id STRING, location STRING)
PARTITIONED BY ( dt INT ) STORED AS PARQUET
最初是在创建表本身时。但是,就我而言,我被迫首先使用SEQUENCE文件创建表,因为它是我必须以的格式,并且不能直接转换为PARQUET。 创建表并插入数据后,有什么方法可以转换成镶木地板吗?
答案 0 :(得分:0)
要将表单序列文件转换为Parquet,您需要将数据(CTAS)加载到新表中。
问题被标记为presto
,因此,我为此给您Presto syntax。我包括分区,因为问题中的示例包含分区。
CREATE TABLE test_parquet WITH(format='PARQUET', partitioned_by=ARRAY['dt']) AS
SELECT * FROM test_sequencefile;