具有相互详尽行的数据的CART方法

时间:2015-11-09 15:08:46

标签: r classification regression decision-tree rpart

我正在尝试使用CART来分析每行都是细分的数据集,例如

Segment_ID  | Attribute_1   | Attribute_2   | Attribute_3   | Attribute_4 | Target  
1                  2               3              100              3         0.1  
2                  0               6              150              5         0.3
3                  0               3              200              6         0.56  
4                  1               4              103              4         0.23 

每个细分受众群的基础数据都有一定的人口数(与我的最终用途无关)。

我想根据4个属性和目标变量,将4个段压缩为2个大段,例如在上面的例子中。我目前正在处理15k段,并且只需要10个段,每个段最终段基于目标,并且还具有合理的属性分布。

现在,请原谅我,如果我错了,但SPSS上的CHAID(如果不使用自动增长)通常会将数据分成70:30比例,在70%的数据上构建树,并测试剩余的30%。我不能使用这种方法,因为我需要包含数据中的所有段。如前所述,我基本上希望将这些片段分成几个大片段。我的问题是我是否可以使用CART(R部分在R中)。 R中的rpart函数中有一个明确的选项'子集',但我不确定是否提及它将确保CART使用100%的数据。我对R来说比较新,因此是一个非常基本的问题。

0 个答案:

没有答案