应用错误收集

民间，
可以在Hadoop处理的不同阶段使用的推荐文件格式是什么。

处理：我一直在hive中使用文本格式/ JSON serde来进行处理。这是我执行ETL（转换）操作的登台表的好格式吗？我应该使用哪种更好的格式？我知道Parquet / ORC / AVRO是专门的格式，但它适合ETL（转换）操作。此外，如果我使用压缩技术，如Snappy for Zlib，这将是一种推荐的方法（由于压缩会导致额外的CPU利用率，我不想放松性能，如果压缩会有更好的性能，请纠正我）< / p>

报告：根据我的查询需求而定聚合：使用柱状存储似乎是一种合理的解决方案。 Parquet与Snappy压缩是否合适（假设我的hadoop发行版是Cloudera） 完成行抓取 如果我的查询模式需要连续的所有列，那么选择柱状存储是一个明智的决定吗？或者我应该选择AVRO文件格式

存档：对于存档数据，我计划使用AVRO，因为它可以通过良好的压缩处理模式演变。

在hadoop中选择文件格式

0 个答案: