Hadoop命令在复制到HDFS时忽略输入文件中的第一行/最后一行

时间:2017-09-18 10:07:40

标签: hdfs hadoop2

我在Linux中有一个输入文件,它有一个标题。我无法修改此文件,因为只有对此文件的只读访问权限。

我可以使用copyFromLocal命令将此文件从Linux成功复制到HDFS。

但是标题不应出现在HDFS文件中,我无权修改Linux输入文件以删除标题。

将文件从Linux复制到HDFS时是否有其他方法可以跳过/忽略标头。类似copyFromLocal -1 input_file_name hdfs_file_name?

1 个答案:

答案 0 :(得分:1)

使用awkput删除第一行到HDFS:

awk 'NR != 1 {print}' file.txt | hdfs dfs -put - hdfs://nn1/user/cloudera