在10分钟的批处理运行中,我们以CSV格式从源中获取增量数据,然后将其上传到存储中,然后获取可以重复的增量表(例如:-ORDERS_I增量表和ORDERS_I_V是具有按逻辑分区以进行过滤的视图重复)。我们有主表ORDER_P,它没有任何重复项。我们每天将I推送到P。 出于报告目的,我们使用ORDERS_I_V + ORDER_P,但是我们遇到了性能问题。
解决方案 1)使用“合并”每10分钟向上插入一次ORDER_P。如果我们有很多遵循此设计的表格,我们可能会达到配额限制。
2)我们可以每10分钟将ORDERS_I_V + ORDER_P的结果覆盖到ORDER_P。如果我们对许多表格执行此操作,则费用可能会很高,并且仍将达到配额限制。
3)直接将增量数据加载到ORDER_P并执行by by子句以使用View过滤重复项效果不佳。
任何评论都可以实时推送增量数据并在具有数百个表的企业环境中维持性能的最佳实践。
关于, Sreekanth