假设我有一个决策树和一个节点T
,我们考虑了连续特征x
有100点,目标y
(也有100点)。当我想找到最佳分割时,我可以简单地查看x
的所有值。我记得在某处读过,您可以通过查看已根据x_sort
进行排序的排序对(y_sort
,x
)来最大程度地减少拆分数。这样,我们可以考虑x_sort[i]
在y_sort[i]!=y_sort[i+1]
处的值,因为显然没有必要在y_sort[i]==y_sort[i+1]
处分割。
问题是,我的实现无法正常运行(在考虑x
的所有值时),但是实现了排序策略却没有,而且我根本找不到描述上述方法的论文,因为我可能有误解/无法正确记住。
那么,任何人都可以确认所提到的策略,或者可以链接/描述一种用于最小化/优化考虑的分割点的更好策略吗?