有没有办法能够逐字节地读取存储在hadoop hdfs上的文件的原始内容?
通常情况下,我提交的-input
param流媒体作业指向.gz
文件(如-input hdfs://host:port/path/to/gzipped/file.gz
)。
我的任务逐行接收解压缩输入,这是 NOT 我想要的。
答案 0 :(得分:0)
您可以使用相应的Hadoop配置初始化FileSystem
:
FileSystem.get(conf);
它有一个方法open
原则上允许你读取原始数据。