我的项目在2个月前开始,我已经在运行到数据仓库的每个进程上传输了100多个表。
我很快就会达到200-300个表,并且不相信我目前的开发方法会扩展。
我还有3个星期的版本(产品开发冲刺),而且表格仍在改变它们的结构(数据类型,列名,新列等)让我头疼,所以我在最初几周忽略了它
我是如何忽略它的?
现在我的模型已经开始形成,所以我必须处理增量加载
答案 0 :(得分:0)
我尽可能地遵循类似于“忽略”设计的风格。全面刷新可确保您的设计灵活,每分钟可达100万行。
当这最终耗尽了腿,并且源系统中有删除时,我会根据数据专家的同意将所有数据删除回日期范围(例如3个月)。您可能必须将该删除分解为块,例如日复一日。我也尝试完全刷新这样的数据,例如每个周末(数据专家经常被误导)。