如何将序列文件转换为拼花格式

时间:2019-10-10 03:10:00

标签: hadoop hive pyspark presto

我有一个需要以 PARQUET 格式创建的HIVE表(测试)。我将使用一堆 SEQUENCE 文件来创建并插入到表中。

一旦创建了表,有没有一种方法可以转换成PARQUET?我的意思是说

CREATE TABLE default.test( user_id STRING, location STRING) 
PARTITIONED BY ( dt INT ) STORED AS PARQUET

最初是在创建表本身时。但是,就我而言,我被迫首先使用SEQUENCE文件创建表,因为它是我必须以的格式,并且不能直接转换为PARQUET。 创建表并插入数据后,有什么方法可以转换成镶木地板吗?

1 个答案:

答案 0 :(得分:0)

要将表单序列文件转换为Parquet,您需要将数据(CTAS)加载到新表中。

问题被标记为presto,因此,我为此给您Presto syntax。我包括分区,因为问题中的示例包含分区。

CREATE TABLE test_parquet WITH(format='PARQUET', partitioned_by=ARRAY['dt']) AS
SELECT * FROM test_sequencefile;