我有两个脚本解析原始日志中的数据并将其写入HIVE中的ORC表。一个脚本创建更多列,少一个。两个表都按date
字段分区。
结果我有不同大小的文件的ORC表。 列数较多的表包含许多小文件(每个分区内每个文件大约4MB),列数较少的表包含少量大文件(每个分区内每个文件大约250 MB)。
我想这是因为ORC中的stripe.size设置。但我不知道如何检查现有桌子的条纹大小。命令如" show create"和"描述"如果没有显示任何自定义设置,则表示表的条带大小应该等于256 MB。
我正在寻找任何建议来检查现有ORC表的stripe.size。 或者说明ORC表中的文件大小如何依赖于该表中的数据。
P.s.It后来我在使用Map Reduce从那些表中读取内容并且对于包含大文件的表有少量缩减器。