apache-spark - 如何编写从Spark到Redshift的查询？

时间：2019-10-02 23:26:41

标签： apache-spark amazon-redshift aws-glue

我通过SSH连接到Glue中的Dev Endpoint。正在运行Spark 2.4.1。

我想运行一个简单的查询select * from pg_namespace;

此外，还想使用COPY命令将数据从S3移至Redshift。

如何在Spark控制台中编写代码？

谢谢。

答案 0 :(得分：0)

我不确定是否可以直接使用COPY命令，而我还没有尝试过。

要将数据从S3移动到Redshift，可以使用AWS Glue API。 Please check here for sample codes from AWS？在后台，我认为AWS Glue使用COPY / UNLOAD命令在S3和REDSHIFT之间移动数据。

答案 1 :(得分：-1)

您可以在ssh终端上使用aws cli和psql。

然后您可以从中运行select和copy命令。

但是我不推荐使用，因为AWS Glue是无服务器服务，因此您的集群每次都不同。