在INT / BIGINT和VARCHAR上的Hive连接之间是否存在经过验证的性能差异?

时间:2016-08-31 10:42:28

标签: join hive int varchar query-performance

多年来,我一直在阅读/听到关于 bigint 列的数据库连接的' 加入( var)char 列。

不幸的是,在寻找关于'类似问题' 的真实答案/建议时:

  • 使用的示例位于传统&#39> RDBMS上下文中,如Mysql或Oracle / SQL Server。以this questionthis example
  • 为例
  • 答案很古老,运行时的结束差异并不大。再次,请参阅this example

没有看到 使用 Hive 版本(最好是版本1.2.1或更高版本)的示例,其中有一个大 (BIG-DATA-ISH)数据集(让我们说 5亿+行)连接到类似大小的数据集

  1. 一个Bigint专栏
  2. VERSUS a(var)Char(32)列。
  3. VERSUS a(var)Char(255)列。
  4. 我选择32的大小,因为它是MD5哈希的大小,转换为字符和255,因为它是'在最大的自然键I的范围内曾见过。

    Futhermore ,我希望Hive:

    • Tez 引擎
    • 下运行
    • 使用(压缩)文件格式,例如 ORC + ZLip / Snappy

    有没有人知道 这样的例子 ,通过展示Hive 解释计划,CPU,文件&网络资源+查询运行时?

0 个答案:

没有答案