标签: hive
我有多个将数据馈入湖泊的源系统。它们都具有基于主题区域的不同自然键。例如,源A可以具有SourceID,CustomerID作为自然键。源B可能具有SourceID,RegionID,CustomerID作为自然键。无论如何,我应该能够为Hive中的所有传入记录生成代理键。想知道什么是查找现有密钥,返回现有密钥或根据需要生成新密钥的最佳方法。每天的总销量将达到数百万。
非常感谢您的时间和帮助
山姆