在ETL期间加入数据的最佳实践

时间:2018-05-08 01:56:34

标签: bigdata etl

我一直在谷歌搜索,无法真正找到我的问题的答案。假设我有2个大表,我的最终目标表需要在这两个表之间连接的行。在可伸缩性和最佳实践方面,我应该在哪里进行这些连接?在源数据库上?提取后的内存?或者临时表?

由于

1 个答案:

答案 0 :(得分:0)

我同意,这里没有规则,只是常识。 尽快摆脱不必要的数据是很好的,因此您将花费更少的资源/存储,但您应该考虑对您的PROD环境的影响。

  

临时表

在Staging中复制数据可以让您获得更多的自由和灵活性,尝试不同的ETL方法的能力等等。我会在那里做。 即使你现在ETL看起来很简单,它也会在将来增长,所以你需要一个适当的地方来玩你的数据。

  

在记忆中

在记忆中哪里?如果它是一个prod实例,你消耗95%的内存...... :)无论如何所有的计算都是“在内存中”。

最好的问候。