回归树的日志变换因变量

时间:2015-01-30 16:08:59

标签: machine-learning regression cross-validation

我有一个数据集,我发现依赖(目标)变量有一个偏斜的分布 - 即有一些非常大的值和一个长尾。

当我运行回归树时,会为大值观测值创建一个终端节点,并为大多数其他观测值创建一个终端节点。

是否可以记录转换依赖(目标)变量并将其用于回归树分析?当我尝试这个时,我得到了一组不同的节点和分割,它们似乎在每个桶中具有更均匀的观察分布。使用对数转换,Predicted vs. Observed的Rsquare值也非常好。换句话说,我似乎通过日志转换获得了更好的测试和验证性能。 只是想确保当因变量具有偏斜分布时,日志转换是一种可接受的运行回归树的方法。

谢谢!

1 个答案:

答案 0 :(得分:3)

是。当目标变量具有偏斜分布时,对目标变量应用日志转换是完全正确的。话虽如此,您需要在预测值之上应用反函数以获得实际预测目标值。

此外,您已经测试过,通过转换,您可以更好地估算Rsquare错误。我假设您在使用指数函数反转日志后计算了RSquare。

有关详细信息,请参阅wiki link有关数据转换的信息。

请注意,如果您的训练数据包含任何负目标值,则无法直接应用日志转换。您可能必须应用其他一些可以接受负值的函数。