表格数据的建议Hadoop文件格式

时间:2012-07-03 05:20:04

标签: hadoop

我的应用程序需要处理几个TB值的表格数据。目前,数据被保存为几个巨大的逗号分隔的csv文件。我可以控制如何将文件提供给我的M / R作业,我想知道什么是使作业运行得更快的首选文件格式?例如,将输入数据保存为序列文件而不是我现在使用的文本文件是否有任何意义?这会使我的M / R工作明显加快运行吗?

1 个答案:

答案 0 :(得分:1)

从“文件格式”的角度来看,我认为使用SequeceFile不会对csv数据的文本文件有很大的改进。如果它是CSV数据中的单个(Key,Value)对,则使用SequenceFile over textfile是有意义的。

然而,我对RCFile(Record Columnar File)的使用很感兴趣,它应该很适合像CSV一样的数据。我已经将它与hive表一起使用,并且在hive查询的执行时间方面取得了一些重大改进。我假设这是由于M / R的执行效率,因为配置单元查询被转换为M / R程序。

参考:http://www.ixwebhosting.mobi/2011/10/06/4823.html