如何编写从Spark到Redshift的查询?

时间:2019-10-02 23:26:41

标签: apache-spark amazon-redshift aws-glue

我通过SSH连接到Glue中的Dev Endpoint。 正在运行Spark 2.4.1。

我想运行一个简单的查询select * from pg_namespace;

此外,还想使用COPY命令将数据从S3移至Redshift。

如何在Spark控制台中编写代码?

谢谢。

2 个答案:

答案 0 :(得分:0)

我不确定是否可以直接使用COPY命令,而我还没有尝试过。

要将数据从S3移动到Redshift,可以使用AWS Glue API。 Please check here for sample codes from AWS?在后台,我认为AWS Glue使用COPY / UNLOAD命令在S3和REDSHIFT之间移动数据。

答案 1 :(得分:-1)

您可以在ssh终端上使用aws clipsql

对于psql,请检查https://docs.aws.amazon.com/redshift/latest/mgmt/connecting-from-psql.html

然后您可以从中运行selectcopy命令。

但是我不推荐使用,因为AWS Glue是无服务器服务,因此您的集群每次都不同。