当前我正在执行以下命令
sqoop合并--new-data / home / part1 / part-m-00000 --onto / home / part2 / part-m-00000 --target-dir / home / merged --jar文件 /home/hadoop/myjar.jar-类名myjar-合并键ID
一切正常,除了合并会在多个零件文件中生成输出,因为这是hadoop中的mapreduce任务,它使用多个reducer。
零件文件是实木复合地板文件,我想创建一个文件,因为下一个过程将输入相同的文件,下一个过程是对提取的同一文件运行Apache spark作业。
如何强制sqoop输出合并到单个文件中?有什么建议吗?
谢谢
-杰克逊
答案 0 :(得分:0)
我需要做的是:
由于我没有足够的细节在您的示例中使用,因此不确定是否对您有用。
这里的假设是您正在从Shell脚本执行sqoop命令。