我正在尝试使用CART
来分析每行都是细分的数据集,例如
Segment_ID | Attribute_1 | Attribute_2 | Attribute_3 | Attribute_4 | Target
1 2 3 100 3 0.1
2 0 6 150 5 0.3
3 0 3 200 6 0.56
4 1 4 103 4 0.23
每个细分受众群的基础数据都有一定的人口数(与我的最终用途无关)。
我想根据4个属性和目标变量,将4个段压缩为2个大段,例如在上面的例子中。我目前正在处理15k段,并且只需要10个段,每个段最终段基于目标,并且还具有合理的属性分布。
现在,请原谅我,如果我错了,但SPSS上的CHAID(如果不使用自动增长)通常会将数据分成70:30比例,在70%的数据上构建树,并测试剩余的30%。我不能使用这种方法,因为我需要包含数据中的所有段。如前所述,我基本上希望将这些片段分成几个大片段。我的问题是我是否可以使用CART(R部分在R中)。 R中的rpart函数中有一个明确的选项'子集',但我不确定是否提及它将确保CART使用100%的数据。我对R来说比较新,因此是一个非常基本的问题。