生成用于群集的数据

时间:2012-09-30 20:05:11

标签: r cluster-analysis random-forest data-generation

我想用一些人工数据测试我的随机森林聚类。我想生成具有强可靠性和一些噪声的数据集。

我有2个属性,A1和A2(都是二进制)。该类计算如下:A1 xor A2。我添加了一些嘈杂的二进制属性。

例如,我们有:

A1   A2   noise | class
0    0     ...  | 0
0    1     ...  | 1
1    0     ...  | 1
1    1     ...  | 0
 ...       ...  | ...

在聚类中我们没有类,因此对于随机森林聚类,我们采用原始数据并对其进行转换。我们用类1标记所有现有案例,并添加标记为类2的合成数据。合成数据是通过从某些属性的所有值中随机抽样构建的。

这就是我们得到的:

A1   A2   noise | class
0    0     ...  | 1
0    1     ...  | 1
1    0     ...  | 1
1    1     ...  | 1
       .....
------------------------- 
0    0     ...  | 2
0    0     ...  | 2
1    1     ...  | 2
0    1     ...  | 2
       .....

上部是用类1标记的原始数据(如上所示)。在该行下是用类2标记的随机抽样合成数据。随机森林试图找到区分第1类和第2类的实际数据(实际数据与随机数据) 。问题是,没有课的XOR告诉我们什么,这里没有什么可学的。

最后,我的问题: 如何为随机森林聚类生成数据,具有非依赖性,温和依赖性或强依赖性属性?

0 个答案:

没有答案