为大型数据集创建Hive表

时间:2018-10-20 08:26:46

标签: hive

我正在尝试创建一个配置文件(在用户级别),该配置文件需要读取数十亿行的交易数据(大部分)。

时间变量分为以下存储区:

  • 1天
  • 7天
  • 30天
  • 90天
  • 寿命等

示例变量为:

  • count(Transactions)
  • count(distinct financial instruments)等

我担心的是,因为存在以下变量:90天,120天和生命周期,所以每个更新必须处理数十亿行数据,而实际上仅需要处理增量。

我的问题如下:

  • 我该如何解决该问题并构造基本交易问题(即仅需要处理增量)?
  • 我该如何处理count(distinct variable)?例如:count(distinct collect_set()),即,它基于增量进行更新而不必处理所有记录。

非常感谢您的帮助。

谢谢 圣

0 个答案:

没有答案