目前,在我们的项目中,我们使用Informatica进行数据加载。
我们需要加载100个表(将来会增加)并且每个表都有1亿个记录,我们需要对其执行增量操作。什么是以有效的方式执行此操作的最佳方法?
答案 0 :(得分:2)
如果可能,请尝试截断并加载。这样,每次运行后,您将获得一个完整的新转储。
如果您无法截断目标并需要增量,请获取一些时间戳或计数器,以便仅读取已修改的行 - 例如新的和更新的。一些“更新日期”。这样,您将限制正在读取的数据的数量。但是,这不会让你删除。所以......
创建一个单独的流来搜索已删除的行,这些行不会读取整行,而只会读取ID。这仍然需要检查所有行,但仅限于一列,因此它应该非常有效。用它来删除目标中的行 - 或者只是将它们标记为已删除。