我正在尝试创建一个配置文件(在用户级别),该配置文件需要读取数十亿行的交易数据(大部分)。
时间变量分为以下存储区:
示例变量为:
count(Transactions)
count(distinct financial instruments
)等我担心的是,因为存在以下变量:90天,120天和生命周期,所以每个更新必须处理数十亿行数据,而实际上仅需要处理增量。
我的问题如下:
count(distinct variable)
?例如:count(distinct collect_set())
,即,它基于增量进行更新而不必处理所有记录。 非常感谢您的帮助。
谢谢 圣