我需要以ORCFile格式创建输出。根据此页面(http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/),这是最好的。
有问题吗?
1)我应该用什么编解码器来创建ORCFile格式的文件? 2)使用-text选项(例如
)可以读取以此格式创建的文件hadoop fs -cat -text /tmp/a.orc
3)还有其他指针吗?使用这种格式还为时过早吗?优点&缺点
感谢。
答案 0 :(得分:4)
要在Hive中的ORCFile中创建数据,只需使用表定义末尾的“存储为orc”并加载数据。您还可以使用HCatalog导入选项将Sqoop直接导入ORC。
还有一个名为orcfiledump的工具可以帮助您分析存储为ORC的数据,为您提供列,类型和统计信息的列表。
您不能使用-cat直接读取ORC,但可以轻松地将ORC数据导出到CSV文件。
答案 1 :(得分:0)
1)我应该用什么编解码器来创建ORCFile格式的文件?
与压缩的权衡是性能。如果数据大小不是瓶颈,那么最好不要使用任何压缩,因为它会给你最大的性能。
这是顺序 无 - > SNAPPY - > ZLIB(在性能和尺寸方面减少)