如何检查HDFS上文件的格式?

时间:2015-05-18 03:12:12

标签: hadoop hdfs

提供HDFS路径,如何确定它的格式(文本,序列或镶木地板)?

3 个答案:

答案 0 :(得分:3)

我认为要完成您的需求并不容易,除非HDFS中的所有文件都符合某些惯例,例如:文本为.txt,序列为.seq,拼花文件为.parquet

但是,您可以使用cat手动检查文件。

  • HDFS cat:hadoop dfs -cat /path/to/file | head检查它是否为文本文件。

  • Parquet head:实木工具头[option ...] / path / to / file

  • 或者,写一个程序来阅读....

答案 1 :(得分:1)

使用“hdfs dfs -cat / path / to / file | head”,

1)对于orc文件,该命令可以在第一行打印“ORC”标志

2)对于镶木地板文件,该命令可以在第一行打印“PAR1”标志

3)对于文本文件,该命令可以打印文件的所有内容

答案 2 :(得分:0)

String extension = FilenameUtils.getExtension(“hdfs:// path-to-file”); 使用Hadoop 2.5.2