Question

有没有办法能够逐字节地读取存储在hadoop hdfs上的文件的原始内容？

通常情况下，我提交的-input param流媒体作业指向.gz文件（如-input hdfs://host:port/path/to/gzipped/file.gz）。

我的任务逐行接收解压缩输入，这是 NOT 我想要的。

Answer 1

您可以使用相应的Hadoop配置初始化FileSystem：

FileSystem.get(conf);

它有一个方法open原则上允许你读取原始数据。