是否可以使用HDFS路径直接从HDFS读取任何文件格式,而不必从HDFS本地提取文件并进行读取。
答案 0 :(得分:4)
您可以在HDFS上使用cat
命令来读取常规文本文件。
hdfs dfs -cat /path/to/file.csv
要读取gz, bz2
等压缩文件,您可以使用:
hdfs dfs -text /path/to/file.gz
这是Hadoop使用FsShell
comamnds本地支持的两种读取方法。对于其他复杂的文件类型,您将不得不使用更复杂的方式,例如Java程序或类似的东西。
答案 1 :(得分:3)
hdfs dfs -cat / path或hadoop fs -cat / path
答案 2 :(得分:2)
您可以尝试使用hdfs dfs -cat
用法:hdfs dfs -cat [-ignoreCrc] URI [URI ...]
hdfs dfs -cat /your/path
答案 3 :(得分:2)
你必须拉动整个文件。无论您使用cat
还是text
命令,整个文件仍然会流式传输到您的shell。命令结束时,文件中没有剩余部分。因此,如果您计划多次检查文件,最好get
作为hdfs客户端,您必须联系namenode以获取特定文件的所有块位置。