在hadoop中选择文件格式

时间:2017-02-23 10:29:06

标签: hadoop hive avro parquet orc

民间,
可以在Hadoop处理的不同阶段使用的推荐文件格式是什么。

处理:我一直在hive中使用文本格式/ JSON serde来进行处理。这是我执行ETL(转换)操作的登台表的好格式吗?我应该使用哪种更好的格式? 我知道Parquet / ORC / AVRO是专门的格式,但它适合ETL(转换)操作。此外,如果我使用压缩技术,如Snappy for Zlib,这将是一种推荐的方法(由于压缩会导致额外的CPU利用率,我不想放松性能,如果压缩会有更好的性能,请纠正我)< / p>

报告:根据我的查询需求而定 聚合: 使用柱状存储似乎是一种合理的解决方案。 Parquet与Snappy压缩是否合适(假设我的hadoop发行版是Cloudera) 完成行抓取 如果我的查询模式需要连续的所有列,那么选择柱状存储是一个明智的决定吗?或者我应该选择AVRO文件格式

存档:对于存档数据,我计划使用AVRO,因为它可以通过良好的压缩处理模式演变。

0 个答案:

没有答案