我正在尝试调查RC文件的工作,因此将文件存储在hadoop集群中,使用行组大小为3个字节,以确保我的数据存储在2-3个行组中。
加载后,为了检查文件中内容的组织方式,我将文件下载为RC文件格式,并使用xxd /Path/To/Downloaded/File
打开它。显示十六进制格式的内容,但我希望在同一个文件中也有其他格式,因为我们无法检查内容。
使用xxd打开的文本和二进制格式的文件如下;
有人可以帮我理解RC格式的文件内容。
谢谢, SREE
答案 0 :(得分:0)
There is hive utility rcfilecat
to read RC file. Something like:
ggk@hadoop4:~/Downloads$ hive --rcfilecat 000000_0
References:
答案 1 :(得分:0)
我希望按原样查看文件内容。 rcfilecat反序列化数据并以记录格式重新排列。我用这个文件看内容。
sudo xxd /path/to/downloaded/file
谢谢, SREE