一位数学家。
假设我有两个立方体,或维度建模的数据集A和B.
为了证明它们相同,是否足以依次按每个维度对它们进行切片,并验证每个成员的总数是否相同?
一个简单的例子:维度国家(英格兰和苏格兰),性别(男性和女性)和已婚(是或否)。衡量CountPeople。
如果我按国家对CountPeople进行切片,比较A和B的结果,然后按性别,然后按结婚,并找到相同的结果,我是否证明了A和B中的每个单元都是相同的?
我认为我有,但我不确定。
答案 0 :(得分:1)
不,依次切割每个维度不足以证明立方体在细胞水平上是相同的。它可能在大多数时候都足够接近,但它在数学上没有保证。
我们可以通过一个只有性别和国家维度的相当简单的例子来证明这一点。想象一下,我们在细胞水平上有以下数据:
如果我们按性别或国家/地区单独切片,我们会得到:
现在,如果所有这些男性都搬到苏格兰并且所有女性都搬到了英格兰,那么我们在细胞层面会有不同的数据:
但是,单一维度报告的数据将是相同的:
这是一个相当简单的例子,但是对于非平凡数据存在同样的可能性,因此要100%确定两个立方体是相同的,您需要在单元级别进行验证。