我们有大而宽的平面文件和遥测数据。他们每天都到达。
我将在ADLA DB中创建星型模式,其中将填充来自这些大型文件的数据。 (看起来像ADLA DB提供了许多功能(与原始ADLS相反):索引,统计,压缩,分发管理......)
要生成代理键,我们可以使用:
哈希怎么样?我们可以用什么功能来实现它? (我正在考虑C#)
答案 0 :(得分:2)
首先,我想了解您为什么要使用代理键。
当前的U-SQL表旨在支持批量查询,您可以提前了解大多数预期的查询。因此,您可以设计分发键和方案(散列,直接散列,范围)和聚簇索引,以优化最昂贵的作业。
如果您需要使用直接哈希来管理数据偏差,那么拥有代理键是有意义的,但是否则可能会增加复杂性以利用分区/分配抵消。
至于实现自己的哈希函数,C#有一些内置的哈希函数,或者你可以编写自己的哈希函数。例如,C#Object.GetHashCode
方法。