Question

问题：我有两组多维异构数据。我在下面编写了一个简单的说明性示例。请注意，有些列是离散的（年龄），有些列是二进制（性别），而另一些列甚至是有序对（裤子大小）。

Person         Age  gender   height     weight  pant_size
Control_1      55   M        167.6      155     32,34
Control_2      68   F        154.1      137     28,28
Control_3      53   F        148.9      128     27,28
Control_4      57   M        167.6      165     38,34
Control_5      62   M        147.4      172     36,32
Control_6      44   M        157.6      159     32,32
Control_7      76   F        172.1      114     30,32
Control_8      49   M        161.8      146     34,34
Control_9      53   M        164.4      181     32,36

Person         Age  gender   height     weight  pant_size
experiment_1   39   F        139.6      112     26,28
experiment_2   52   M        154.1      159     32,32
experiment_3   43   F        148.9      123     27,28
experiment_4   55   M        167.6      188     36,38
experiment_5   61   M        161.4      171     36,32
experiment_6   48   F        149.1      144     28,28

问题是整个实验组与整个对照组有显着差异吗？

或粗略地说，它们在[年龄，性别，身高，体重，喘气]空间中形成两个不同的群体？

到目前为止，我所尝试过的一般概念是将实验组的相应列与对照列进行比较的度量标准;然后，度量取得列分数的总和（见下文）。选择一个有点任意的阈值来决定这两个组是否不同。这种任意性被列的加权所混淆，这也是一些任意的。值得注意的是，这种方法很好地解决了我遇到的实际问题，但需要正式化。我想知道这种方法是否与任何现有方法相似，或者其他已经成熟的方法是否被更广泛接受？

Person         Age  gender   height     weight  pant_size
experiment_1   39   F        139.6      112     26,28
experiment_2   52   M        154.1      159     32,32
experiment_3   43   F        148.9      123     27,28
experiment_4   55   M        167.6      188     36,38
experiment_5   61   M        161.4      171     36,32
experiment_6   48   F        149.1      144     28,28        metric

column score   2    1        5          1       7            16

Answer 1

如果您将结果视为“群集”，则将其视为分类，而不是群集问题。

因为您不需要找到这些群集，但它们是预定义的类。

“重写”方法如下：

训练不同的分类器预测某个点是来自数据A还是来自数据B 。如果您可以获得比50％更好的准确度（假设数据平衡），那么geoups会有所不同。如果你的所有分类器都和随机一样好（并且你没有犯错）那么这两组可能太相似了。

多维数据聚类

1 个答案: