我正在使用随机森林对大量天文物体进行分类,并且它做得相对不错。但是,我希望通过合并有关每个要素的方差(或错误栏)的信息来进一步提高性能。
在天文学中,每个测量通常都有一个相关的误差条。例如,如果我测量红色和蓝色,每种颜色测量将是亮度的度量(在天文学中,即星的大小),误差,例如, R幅度14 + - 0.2,B幅度12±0.15。
我想弄清楚如何使随机森林使用错误栏作为额外的信息。有任何想法吗?
答案 0 :(得分:0)
是错误和颜色测量的数字特征吗?然后我只想添加一个新功能,这是两个功能的产物,我想这就是你所谓的R中的交互
答案 1 :(得分:0)
您可以考虑做的一件简单事情是使用每个变量的错误分布重新采样数据。所以,你通过取x + u * sigma生成新的例子,其中u是普通(0,1)绘制,sigma是该变量的错误的sd。可能需要大量额外的样本才能正确合并噪声(取决于功能的数量),但由于RF并行训练速度非常快,因此可能是一种简单的方法。还有一个额外的好处,就是可以很容易地在采样中加入相关噪声。