C4.5算法中的数值

时间:2015-11-26 17:00:39

标签: algorithm decision-tree c4.5

阈值Z:

- 首先根据所考虑的属性Y的值对训练样本进行排序。这些值只有有限数量,所以让我们按照{v1,v2,...,vm}的排序顺序表示它们。 - 位于viand vi + 1之间的任何阈值都具有相同的效果,即将案例划分为属性Y的值位于{v1,v2,...,vi}的值和值为{vi + 1,vi +的值2,...,vm}。因此在Y上只有m-1个可能的分裂,所有这些分裂都应该系统地检查以获得最佳分裂。

通常选择每个区间的中点:(vi + vi + 1)/ 2作为代表性阈值。 -C4.5选择每个区间{vi,vi + 1}的较小值vifor作为阈值,而不是中点本身

我只想知道是否正确。

让我说我有:

{65, 70, 75, 78, 80, 85, 90, 95, 96}. 

我必须进行m-1计算才能找到最佳值

{65, 70, 75, 78, 80, 85, 90, 95}.     

对于每个分割(例如65和> = 65,< 70和> = 70等等)。我必须计算
增益比率,并选择能够带来更高收益的分割。我是对的吗?

0 个答案:

没有答案