问题:我有两组多维异构数据。我在下面编写了一个简单的说明性示例。请注意,有些列是离散的(年龄),有些列是二进制(性别),而另一些列甚至是有序对(裤子大小)。
Person Age gender height weight pant_size
Control_1 55 M 167.6 155 32,34
Control_2 68 F 154.1 137 28,28
Control_3 53 F 148.9 128 27,28
Control_4 57 M 167.6 165 38,34
Control_5 62 M 147.4 172 36,32
Control_6 44 M 157.6 159 32,32
Control_7 76 F 172.1 114 30,32
Control_8 49 M 161.8 146 34,34
Control_9 53 M 164.4 181 32,36
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28
问题是整个实验组与整个对照组有显着差异吗?
或粗略地说,它们在[年龄,性别,身高,体重,喘气]空间中形成两个不同的群体?
到目前为止,我所尝试过的一般概念是将实验组的相应列与对照列进行比较的度量标准;然后,度量取得列分数的总和(见下文)。选择一个有点任意的阈值来决定这两个组是否不同。这种任意性被列的加权所混淆,这也是一些任意的。值得注意的是,这种方法很好地解决了我遇到的实际问题,但需要正式化。我想知道这种方法是否与任何现有方法相似,或者其他已经成熟的方法是否被更广泛接受?
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28 metric
column score 2 1 5 1 7 16
答案 0 :(得分:0)
如果您将结果视为“群集”,则将其视为分类,而不是群集问题。
因为您不需要找到这些群集,但它们是预定义的类。
“重写”方法如下:
训练不同的分类器预测某个点是来自数据A还是来自数据B 。如果您可以获得比50%更好的准确度(假设数据平衡),那么geoups会有所不同。如果你的所有分类器都和随机一样好(并且你没有犯错)那么这两组可能太相似了。