标签: hive sqoop
假设如果我们在sqoop中使用增量导入将数据从RDMS导入到Hadoop,并且早先已经在hadoop中导入的某些数据在RDMS中进行了更新,而当我们再次使用sqoop增量导入进行导入时,我们也会得到最近更新的数据, Hadoop中已经存在导致数据重复的数据,那么在这种情况下使用sqoop导入数据时如何避免数据重复?
答案 0 :(得分:0)
Hadoop被编写为多次读取(WORM)方法,并且增量负载需要计划的策略。您可以遵循以下准则,并验证您当前的需求