检查RC文件的内容

时间:2016-08-31 13:47:12

标签: file hadoop hive

我正在尝试调查RC文件的工作,因此将文件存储在hadoop集群中,使用行组大小为3个字节,以确保我的数据存储在2-3个行组中。

加载后,为了检查文件中内容的组织方式,我将文件下载为RC文件格式,并使用xxd /Path/To/Downloaded/File打开它。显示十六进制格式的内容,但我希望在同一个文件中也有其他格式,因为我们无法检查内容。

使用xxd打开的文本和二进制格式的文件如下;

enter image description here

有人可以帮我理解RC格式的文件内容。

谢谢, SREE

2 个答案:

答案 0 :(得分:0)

There is hive utility rcfilecat to read RC file. Something like:

ggk@hadoop4:~/Downloads$ hive --rcfilecat 000000_0

References:

  1. Documentation
  2. Java doc

答案 1 :(得分:0)

我希望按原样查看文件内容。 rcfilecat反序列化数据并以记录格式重新排列。我用这个文件看内容。

sudo xxd /path/to/downloaded/file

谢谢, SREE