我想预测学生是否参加板球比赛{目标变量}。 假设我有3列: 性别,阶级,年龄 我们可以看到,我有2个分类属性和一个连续属性。 在确定根节点时,我知道传统上可以使用gini标准比较两个分类属性。我应该如何拆分连续属性以及我应该考虑哪个标准,以便将其视为针对2个分类的根节点的竞争者?
答案 0 :(得分:1)
您可以按间隔拆分连续变量。假设您有连续变量形式1到10,您可以在一个类别中将其拆分为1到5,在不同类别中拆分为6到10。
答案 1 :(得分:0)
这实际上取决于您使用哪种模型(算法)进行拆分。然而,在基因中,F检验是分裂连续变量时通常使用的。试着看看SAS用于实施的内容:SAS - splitting criteria。此外,这里是决策树的一个很好的解释:Decision tree. It begins here。