我想用一些人工数据测试我的随机森林聚类。我想生成具有强可靠性和一些噪声的数据集。
我有2个属性,A1和A2(都是二进制)。该类计算如下:A1 xor A2。我添加了一些嘈杂的二进制属性。
例如,我们有:
A1 A2 noise | class
0 0 ... | 0
0 1 ... | 1
1 0 ... | 1
1 1 ... | 0
... ... | ...
在聚类中我们没有类,因此对于随机森林聚类,我们采用原始数据并对其进行转换。我们用类1标记所有现有案例,并添加标记为类2的合成数据。合成数据是通过从某些属性的所有值中随机抽样构建的。
这就是我们得到的:
A1 A2 noise | class
0 0 ... | 1
0 1 ... | 1
1 0 ... | 1
1 1 ... | 1
.....
-------------------------
0 0 ... | 2
0 0 ... | 2
1 1 ... | 2
0 1 ... | 2
.....
上部是用类1标记的原始数据(如上所示)。在该行下是用类2标记的随机抽样合成数据。随机森林试图找到区分第1类和第2类的实际数据(实际数据与随机数据) 。问题是,没有课的XOR告诉我们什么,这里没有什么可学的。
最后,我的问题: 如何为随机森林聚类生成数据,具有非依赖性,温和依赖性或强依赖性属性?