我正在配置AWS pipline以使用来自JSON S3文件的数据加载redshift表。
我使用RedshiftActivity,一切都很好,直到我尝试配置KEEP_EXISTING加载方法。我真的不想在每次加载时截断我的表,但保留现有信息并添加新记录。
Redshift活动似乎需要在表中定义PRIMARY KEY,以便顺序(OK)...现在它还要求我配置DISTRIBUTION KEY,但我对EVEN发行感兴趣,而且似乎DISTRIBUTION KEY无法使用甚至发行风格。
我可以使用分发密钥模拟EVEN分发吗?
感谢。
答案 0 :(得分:1)
在Redshift中创建表时,我不打扰主键。对于distkey,您希望选择一个值为随机分布的字段,理想情况下。
在增量插入的情况下,我通常只使用SQLActivity将数据从s3复制到Redshift中的临时表。然后我执行更新/插入/重复数据删除以及任何步骤,具体取决于业务逻辑。最后我放下了临时表。完成。