提供HDFS路径,如何确定它的格式(文本,序列或镶木地板)?
答案 0 :(得分:3)
我认为要完成您的需求并不容易,除非HDFS中的所有文件都符合某些惯例,例如:文本为.txt
,序列为.seq
,拼花文件为.parquet
。
但是,您可以使用cat
手动检查文件。
HDFS cat:hadoop dfs -cat /path/to/file | head
检查它是否为文本文件。
Parquet head:实木工具头[option ...] / path / to / file
或者,写一个程序来阅读....
答案 1 :(得分:1)
使用“hdfs dfs -cat / path / to / file | head”,
1)对于orc文件,该命令可以在第一行打印“ORC”标志
2)对于镶木地板文件,该命令可以在第一行打印“PAR1”标志
3)对于文本文件,该命令可以打印文件的所有内容
答案 2 :(得分:0)
String extension = FilenameUtils.getExtension(“hdfs:// path-to-file”); 使用Hadoop 2.5.2