greenplum的增量负荷

时间:2017-07-26 19:01:49

标签: etl greenplum

我在greenplum中有外部和内部表。外部表指向hdfs中的csv文件。 Hdfs中的这个csv文件每小时加载一个表的完整数据。 在greenplum的内部表中以递增方式加载数据的最佳方法是什么。

1 个答案:

答案 0 :(得分:0)

在greenplum中创建维度表,其中它存储了之前加载的最后一个,如时间戳或任何数据点。

使用上面的维度表,你可以以这样的方式返回一个UDF,每当一个新文件到达时,它将被装入一个小时,它将加载到stage / extrenal表,然后从维度表中加载最后一个参数,它将仅选择相关/新记录将进一步处理。

谢谢, shobha