我的redshift数据库中有3个表,数据来自S3的3个不同的csv文件,每隔几秒钟。一张表有大约30亿条记录,另外两张有大约1亿条记录。对于近乎实时的报告目的,我必须将此表合并到1个表中。我如何在红移中实现这一目标?
答案 0 :(得分:1)
Amazon Redshift中的近实时数据加载
我想说第一步是考虑Redshift是否是您正在考虑的工作量的最佳平台。 Redshift不是流媒体数据的最佳平台。
Redshift的架构比流式插入更适合批量插入。 " COMMIT" s"昂贵"在Redshift。
如果这些操作要与流数据竞争资源,则需要考虑VACUUM和ANALYZE对性能的影响。
根据整个需求和工作负载,在项目中使用Redshift可能仍然有意义,但请记住,为了使用Redshift,您将围绕它进行工程设计,并且可能会改变您的工作负载。 #34;近实时"微批建筑。
总结一下: