将多个胶水目录表导入到redshift表中

时间:2018-01-29 06:07:26

标签: json amazon-web-services amazon-s3 amazon-redshift aws-glue

我在S3中有多个文件,我想将其导入Redshift。复制的命令行给了我难以理解的错误。所以我去使用AWS Glue抓取工具将文件放入我的Glue目录中。然后我为Redshift创建了一个连接。我使用Glue Job将数据摄取到Redshift中。

我能够将S3中的文件clicks_001.json中的数据转换为Redshift表单击。那很有效。但问题是我有1000个这样的文件,我想把它们全部放到同一个Redshift表中。

我尝试将参数传递给作业,但无法读取参数中的参数。我以为我可以使用SDK为目录中的每个表逐个启动作业。我认为这是AWS Glue中的一个错误,我记录了一个错误https://forums.aws.amazon.com/thread.jspa?threadID=272398&tstart=0

据我所知,AWS Glue是Spark之上的包装器。在spark中,我们可以读取s3://files-dir/my_file-*.json之类的文件。我看了,但找不到像这样读取数据的方法。关于如何将S3中的多个文件放入Redshift的任何建议?

0 个答案:

没有答案