假设我有N
个一维点xi
及其标签yi = 1/0
。我想学习一组k
区间,这样当标签1被赋予那些区间中的所有点时,错误被最小化。即,如果数据集是:
1: 0
2: 0
3: 1
4: 1
5: 0
6: 1
7: 1
8: 1
9: 0
10: 0
11: 0
k=1
,最佳间隔为[3, 8]
。随着k
的增加,它会变得更加复杂。
是否有一些常见的算法可以在scikit-learn中执行此操作,或者对决策树算法进行一些修改?只是直接决策树算法不起作用,因为你不能控制k
,只能控制深度,并且分支的顺序可能导致次优的最终间隔集。如果有必要,那些不在scikit-learn中的东西也可能没问题。