直接从HDFS读取文件

时间:2017-05-23 10:38:40

标签: hadoop hdfs

是否可以使用HDFS路径直接从HDFS读取任何文件格式,而不必从HDFS本地提取文件并进行读取。

4 个答案:

答案 0 :(得分:4)

您可以在HDFS上使用cat命令来读取常规文本文件。

hdfs dfs -cat /path/to/file.csv

要读取gz, bz2等压缩文件,您可以使用:

hdfs dfs -text /path/to/file.gz

这是Hadoop使用FsShell comamnds本地支持的两种读取方法。对于其他复杂的文件类型,您将不得不使用更复杂的方式,例如Java程序或类似的东西。

答案 1 :(得分:3)

hdfs dfs -cat / path或hadoop fs -cat / path

答案 2 :(得分:2)

您可以尝试使用hdfs dfs -cat

用法:hdfs dfs -cat [-ignoreCrc] URI [URI ...]

hdfs dfs -cat /your/path

答案 3 :(得分:2)

你必须拉动整个文件。无论您使用cat还是text命令,整个文件仍然会流式传输到您的shell。命令结束时,文件中没有剩余部分。因此,如果您计划多次检查文件,最好get

作为hdfs客户端,您必须联系namenode以获取特定文件的所有块位置。