查找最佳'的方法连续目标变量的截止点

时间:2017-01-04 14:45:34

标签: machine-learning statistics data-mining data-manipulation

我正在研究机器学习场景,目标变量是断电持续时间。

目标变量的分布严重偏向正确(您可以想象大多数停电发生并且相当快速地结束,但是有很多很多异常值可以持续更长时间)很多这些停电变得更少并且不那么可解释'数据随着持续时间越来越长。它们或多或少地成为一种独特的中断,其中在网站上发生的事件不一定是典型的'其他中断也没有记录在这些事件的具体情况之外的数据,而这些事件已经可用于所有其他的典型事件'中断。

创建模型时会出现问题。这种无法解释的数据混合了可解释的部分,也扭曲了模型预测的能力。

我分析了一些百分位来决定我认为包含尽可能多的中断的一点,而我仍然认为持续时间大部分是可以解释的。这大概在320分钟左右,占据了大约90%的停电时间。

这对我的观点完全是主观的,我知道必须有某种程序才能确定一个最好的'此目标变量的截止点。理想情况下,我希望这个程序足够强大,以考虑尽可能多地包含尽可能多的数据,而不是告诉我将我的截止时间延长2小时,从而削减大量客户的目的。是为尽可能多的客户提供准确的估计恢复时间。

仅供参考:我正在使用的建模方法现在看起来效果最好的是随机森林和条件随机森林。我在这种情况下使用的方法包括多元线性回归,决策树,随机森林和条件随机森林。 MLR是迄今为止效率最低的。 :(

1 个答案:

答案 0 :(得分:0)

我有完全相同的问题!我希望有更多知情的人能带来他的知识。我徘徊到一个长期持续的东西,我们想要丢弃或我们想要预测!  此外,我尝试通过对其进行日志转换来处理我的数据,并且密度图在分布的左侧显示了一个有趣的工件(因为我只有整数的持续时间,而不是浮点数)。我认为这有帮助,您还应该记录转换具有类似分布的功能。

Frequency of durations (Log tranformed)

我终于认为解决方案应该是分层抽样或赋予功能权重,但我不确切知道如何实现它。我的尝试没有产生任何好结果。也许我的数据太随机了!