Sqoop合并工具可在单个文件中生成输出

时间:2018-06-26 06:15:26

标签: apache hadoop hdfs sqoop parquet

当前我正在执行以下命令

  

sqoop合并--new-data / home / part1 / part-m-00000 --onto   / home / part2 / part-m-00000 --target-dir / home / merged --jar文件   /home/hadoop/myjar.jar-类名myjar-合并键ID

一切正常,除了合并会在多个零件文件中生成输出,因为这是hadoop中的mapreduce任务,它使用多个reducer。

零件文件是实木复合地板文件,我想创建一个文件,因为下一个过程将输入相同的文件,下一个过程是对提取的同一文件运行Apache spark作业。

如何强制sqoop输出合并到单个文件中?有什么建议吗?

谢谢

-杰克逊

1 个答案:

答案 0 :(得分:0)

我需要做的是:

  1. 创建一个新的目标文件
  2. 运行Sqoop命令后,转到所有零件文件所在的目录 已创建
  3. 执行cat * >> target_file

由于我没有足够的细节在您的示例中使用,因此不确定是否对您有用。

这里的假设是您正在从Shell脚本执行sqoop命令。