目标:将偏移杂质添加到openCV中生长树木的分裂决策中。
目前在opencv随机树中,拆分如下:
if( !priors )
{
int L = 0, R = n1;
for( i = 0; i < m; i++ )
rsum2 += (double)rc[i]*rc[i];
for( i = 0; i < n1 - 1; i++ )
{
int idx = responses[sorted_indices[i]];
int lv, rv;
L++; R--;
lv = lc[idx]; rv = rc[idx];
lsum2 += lv*2 + 1;
rsum2 -= rv*2 - 1;
lc[idx] = lv + 1; rc[idx] = rv - 1;
if( values[i] + epsilon < values[i+1] )
{
double val = (lsum2*R + rsum2*L)/((double)L*R);
if( best_val < val )
{
best_val = val;
best_i = i;
}
}
}
}
使用基尼杂质。
任何能够解释代码如何实现这一点的人,从我得到它:最初它将所有类计数放在正确的节点中,并且在从右向左移动一个实例并更新lsum2和rsum2时,它找到了最佳解决方案。我得到的是p_j ^ 2与lv * 2 +1或rv * 2-1的关系。
真正的问题,如果有可用的偏移量并且想要基于偏移的类似性的杂质添加分割。 (偏移是从中心到当前节点的方向和距离。
我想出的是这样的事情,如果有人能指出任何瑕疵都会有好处,因为它没有给出好的结果,我不知道从哪里开始调试。
//Compute mean
for(i = 0; i<n1;++i)
{
float* point = (float*)(points.data + rstep*sample_idx_src[sorted_indices[i]]);
meanx[responses[sorted_indices[i]]] += point[0];
meany[responses[sorted_indices[i]]] += point[1];
}
for(i = 0;i<m;++i)
{
meanx[i] /= rc0[i];
meany[i] /= rc0[i];
}
if(!priors)
{
int L = 0, R = n1;
for(i=0;i<n1;i++)
{
float* point = (float*)(points.data + rstep*sample_idx_src[sorted_indices[i]]);
double tmp = point[0] - meanx[responses[sorted_indices[i]]];
rsum2 += tmp*tmp;
tmp = point[1] -meany[responses[sorted_indices[i]]];
rsum2 += tmp*tmp;
}
double minDist = DBL_MAX;
for(i=0;i<n1;++i)
{
float* point = (float*)(points.data + rstep*sample_idx_src[sorted_indices[i]]);
++L; --R;
double tmp = point[0] - meanx[responses[sorted_indices[i]]];
lsum2 += tmp*tmp;
tmp = point[1] -meany[responses[sorted_indices[i]]];
lsum2 += tmp*tmp;
tmp = point[0] - meanx[responses[sorted_indices[i]]];
rsum2 -= tmp*tmp;
tmp = point[1] -meany[responses[sorted_indices[i]]];
rsum2 -= tmp*tmp;
if( values[i] + epsilon < values[i+1] )
{
double val = (lsum2 + rsum2)/((double)L*R);
if(val < minDist )
{
minDist = val;
best_val = -val;
best_i = i;
}
}
}
答案 0 :(得分:1)
好的,这种情况下的基尼系数很简单,因为只有左右两组。因此,我们拥有1-sum(pj*pj)
而不是大笔1-pl*pl-pr*pr
。左侧pl
项目的比例是左侧lv
项的数量除以总数。
现在,当我们改变分组时,pl*pl
和pr*pr
会发生变化,但不会因为项目总数发生变化。因此,我们优化pr
(这是简单的计数),而不是优化pl
和lv and rv
(它们是浮点数)。
接下来,问题为2*lv+1
。这很简单:我们正在增加lv = lv=1
以优化lv*lv
。如果您写出所有条款,(lv+1)*(lv+1) - (lv*lv)
(增加)恰好是2*lv+1
。减少(rv-1)*(rv-1) - (rv*rv)
恰好是-2*rv+1
或-(r*rv+1)
。