我一直在谷歌搜索,无法真正找到我的问题的答案。假设我有2个大表,我的最终目标表需要在这两个表之间连接的行。在可伸缩性和最佳实践方面,我应该在哪里进行这些连接?在源数据库上?提取后的内存?或者临时表?
由于
答案 0 :(得分:0)
我同意,这里没有规则,只是常识。 尽快摆脱不必要的数据是很好的,因此您将花费更少的资源/存储,但您应该考虑对您的PROD环境的影响。
临时表
在Staging中复制数据可以让您获得更多的自由和灵活性,尝试不同的ETL方法的能力等等。我会在那里做。 即使你现在ETL看起来很简单,它也会在将来增长,所以你需要一个适当的地方来玩你的数据。
在记忆中
在记忆中哪里?如果它是一个prod实例,你消耗95%的内存...... :)无论如何所有的计算都是“在内存中”。
最好的问候。