民间,
可以在Hadoop处理的不同阶段使用的推荐文件格式是什么。
处理:我一直在hive中使用文本格式/ JSON serde来进行处理。这是我执行ETL(转换)操作的登台表的好格式吗?我应该使用哪种更好的格式? 我知道Parquet / ORC / AVRO是专门的格式,但它适合ETL(转换)操作。此外,如果我使用压缩技术,如Snappy for Zlib,这将是一种推荐的方法(由于压缩会导致额外的CPU利用率,我不想放松性能,如果压缩会有更好的性能,请纠正我)< / p>
报告:根据我的查询需求而定 聚合: 使用柱状存储似乎是一种合理的解决方案。 Parquet与Snappy压缩是否合适(假设我的hadoop发行版是Cloudera) 完成行抓取 如果我的查询模式需要连续的所有列,那么选择柱状存储是一个明智的决定吗?或者我应该选择AVRO文件格式
存档:对于存档数据,我计划使用AVRO,因为它可以通过良好的压缩处理模式演变。