我们正在创建一个由大约8个星型模式组成的数据集市,每个模式代表一个业务事件,流程或报告数据集。我们拥有交易,快照和累积快照架构的相同组合。我们打算在大多数事实表中使用的值作为主键是ContractID,但是在源DB中,这是一个这种格式的字符串" X12345.001"。
我已经阅读了一些关于使用字符串作为PK的矛盾观点:
Strings as Primary Keys in SQL Database - 本文的最佳答案表明它没问题,但问题不是Data Mart特有的。
String as primary KEY? - 本文的最佳答案是针对使用字符串作为PK的死定法。
数据集市的内容永远不会很庞大(所有明星的行数都是数百万,而不是数十亿行)。使用当前的PK(ContractID)会更省力,因为这将在所有表中保持一致,但我担心性能。问题是字符串是否可以用作数据集市中的主键。
由于
答案 0 :(得分:1)
最后,我们将合同ID存储在一个维度中,该维度可能是正确的,因为ID更多是对合同的描述,尽管它是唯一的),事实表的SQL生成ID在事实中充当FK表。事实表确实为每个合约保留了多行,正如您期望的那样,可以使用累积快照。
我们让SQL处理所有ID,并将事实表中的所有内容限制为整数,我们认为性能非常高!