阈值Z:
- 首先根据所考虑的属性Y的值对训练样本进行排序。这些值只有有限数量,所以让我们按照{v1,v2,...,vm}的排序顺序表示它们。 - 位于viand vi + 1之间的任何阈值都具有相同的效果,即将案例划分为属性Y的值位于{v1,v2,...,vi}的值和值为{vi + 1,vi +的值2,...,vm}。因此在Y上只有m-1个可能的分裂,所有这些分裂都应该系统地检查以获得最佳分裂。
通常选择每个区间的中点:(vi + vi + 1)/ 2作为代表性阈值。 -C4.5选择每个区间{vi,vi + 1}的较小值vifor作为阈值,而不是中点本身
我只想知道是否正确。
让我说我有:
{65, 70, 75, 78, 80, 85, 90, 95, 96}.
我必须进行m-1计算才能找到最佳值
{65, 70, 75, 78, 80, 85, 90, 95}.
对于每个分割(例如65和> = 65,< 70和> = 70等等)。我必须计算
增益比率,并选择能够带来更高收益的分割。我是对的吗?