嗨,我只需要一个小建议。
在我的项目中,他们正在将所有Teradata查询转换为(Hive DB)Dataframes-pyspark / Spark-SQL。
绝大部分Teradata查询都基于截断和负载。
例如
假设表A中有10000条记录
表A每天从另一个来源(例如表M)获取数据。
每天我们只会收到5到6条新记录。
目前,我们每天都在截断表A中的所有数据,并从表M中进行全负载。
表M包含update_timestamp列,因此很有可能进行增量加载,并且该表仅包含原始事务数据类型。
使用Spark-SQL是写查询的更好方法,我应该像在Teradata中那样进行增量加载或完全加载吗?
答案 0 :(得分:0)
您必须每天对表进行增量加载,同时要记住update_timestamp列,如果您需要更多详细信息,请告诉我。