我有一个安装了Presto的DataProc集群,作为可选组件。我的数据存储在Google云存储(GCS)中,并且可以使用Presto进行查询。但是,我没有找到将查询结果写回GCS的方法。如果登录主节点并从那里运行Presto命令,则可以写入hdfs,但它无法识别任何GCS位置。
如何将Presto查询结果写入GCS?
答案 0 :(得分:2)
您需要创建一个由GCS支持的Hive外部表,例如:
gcloud dataproc jobs submit hive \
--cluster <cluster> \
--execute "
CREATE EXTERNAL TABLE my_table(id INT, name STRING)
STORED AS PARQUET
location 'gs://<bucket>/<dir>/';"
然后将您的Presto查询结果插入表中。