应用错误收集

为大型数据集创建Hive表

时间：2018-10-20 08:26:46

标签： hive

我正在尝试创建一个配置文件（在用户级别），该配置文件需要读取数十亿行的交易数据（大部分）。

时间变量分为以下存储区：

1天
7天
30天
90天
寿命等

示例变量为：

count(Transactions)
count(distinct financial instruments）等

我担心的是，因为存在以下变量：90天，120天和生命周期，所以每个更新必须处理数十亿行数据，而实际上仅需要处理增量。

我的问题如下：

我该如何解决该问题并构造基本交易问题（即仅需要处理增量）？
我该如何处理count(distinct variable)？例如：count(distinct collect_set())，即，它基于增量进行更新而不必处理所有记录。

非常感谢您的帮助。

谢谢圣

0 个答案:

没有答案