Sqoop导出缺失数据

时间:2015-06-16 12:41:06

标签: sql postgresql shell hadoop sqoop

我正在尝试使用Sqoop将数据从HDFS导出到Postgresql。但是,我通过导出部分收到错误,它无法解析输入。我手动进入我导出的文件,看到这行丢失了两列。我用Sqoop命令尝试了一堆不同的参数,但无法使它工作。这是我到目前为止所运行的:

sqoop export --connect jdbc:postgresql://localhost:5432/XX -username
XX -password XX --table XX --input-fields-terminated-by
"\t" --input-lines-terminated-by "\n" --input-null-string '\n' --input-null
non-string '\n' -m 1 --export-dir /user/dan/output

我也尝试过没有" - input-null-string"和" - input-null-non-string" args并得到了相同的结果。我的表有6列,我正在阅读的文件具有制表符分隔值,如果所有6都在那里,则插入表中。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

我通过更改reduce函数解决了这个问题,这样如果没有正确数量的字段输出某个值,那么我就可以使用带有该值的--input-null-non-string工作