我刚刚开始使用Sqoop Hands-on。我有一个问题,假设我在数据库中有300个表,我想对这些表执行增量加载。我知道我可以使用追加模式或上次修改进行增量导入。
但我是否必须创建300个作业,如果作业中唯一不同的是表名,CDC列和最后一个值/更新值?
是否有人尝试使用相同的作业并将上述内容作为参数传递,可以从循环中的文本文件中读取并并行执行所有表的相同作业。
行业标准和建议是什么?
另外,有没有办法截断并重新加载非常小的hadoop表而不是执行CDC并在以后合并表?
答案 0 :(得分:0)
有import-all-tables"从数据库导入表到HDFS" 但是,它不会提供更改每个表的CDC列的方法。 另请参阅sqoop import multiple tables
没有截断,但通过以下方式可以实现同样的效果。 --delete-target-dir"删除导入目标目录(如果存在)"