我正在创建Hive外部表。文件格式为文本文件。但是查询需要很长时间才能执行。
我是否可以使用任何文件格式来快速访问数据?
答案 0 :(得分:0)
ORC是迄今为止用于更快地访问HIVE数据的最佳文件格式。请注意,您必须确保按搜索列的排序顺序加载数据,以便更快地进行检索。这将使加载过程变慢。
我建议将分区与ORC(ZLIB压缩)一起使用,因为这是我最近测试过的,并且看到了良好的性能提升。
有关ORC文件格式的详细信息,请参阅(还有很多好文章) https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
答案 1 :(得分:0)
将其存储为ORC格式并使用tez执行引擎
set hive.execution.engine=tez;