MySQL数据库中存在一个users
表。
我们希望将数据迁移到AMazon S3中,以便使用Amazon Redshift进行进一步分析。
建议的S3数据文件夹/命名约定:
s3://data/users/YYYYMMDD/users-YYYYMMDDHHMMSS.csv
Amazon Redshift会按以下方式加载数据以查询用户的所有行:
create EXTERNAL TABLE redshift_users from s3://data/users
问题:
答案 0 :(得分:0)
要回答您的问题:
您假定新行将自动优先于旧行-事实并非如此。您需要在数据中添加“ processed_timestamp”列,并在查询中对其进行处理-您的查询必须弄清楚如何仅获取最新行(我为此使用了窗口函数)。
通常,您不能从S3物理上删除行。您需要结合上面的#1实施逻辑删除过程。