使用Informatica BDM的Sqoop增量负载

时间:2018-12-20 03:39:39

标签: sqoop informatica informatica-powerexchange

我是Informatica BDM的新手,我有一个用例,每天必须将RDBMS中的数据(100个表)以增量方式导入到Hive。有人可以指导我实现最佳方法吗?

谢谢, 提交

1 个答案:

答案 0 :(得分:0)

Hadoop是一次写入多次读取(WORM)的方法,而增量负载并非易事。您可以遵循以下准则,并验证您当前的需求

  1. 如果表是小/中型并且没有太多记录, 最好刷新整个表
  2. 如果表太大,并且增量负载具有添加/更新/删除操作,则可以考虑暂存增量并执行联接操作以重新创建数据集。
  3. 对于大表和大增量,可以为所有最新记录创建一个版本号,并且每个增量都可以进入新目录,并且应创建一个视图以获取最新版本以进行进一步处理。这样可以避免繁琐的合并操作。

如果删除操作不是更改,那么您还需要考虑如何操作,在这种情况下,您需要进行完全刷新。