流数据的规范化方法

时间:2015-07-24 15:03:38

标签: stream machine-learning data-mining normalization

我正在使用Clustream算法,我发现我需要规范化我的数据。我决定使用min-max算法来做到这一点,但我认为通过这种方式,新的数据对象的值将以不同的方式计算,因为min和max的值可能会发生变化。你认为我是对的吗?如果是这样,我应该使用哪种算法?

2 个答案:

答案 0 :(得分:3)

相反,要根据整个数据计算全局最小 - 最大值,您可以使用基于滑动窗口的局部非限定(例如,仅使用最后15秒的数据)。这种方法非常普遍用于计算信号和图像处理的局部平均滤波器。

我希望它可以帮到你。

答案 1 :(得分:0)

规范化流数据时,您需要使用列车集的统计属性。在流式传输过程中,您只需将太大/低值切换到最小/最大值。没有别的办法,你知道,这是一条小溪。

但作为权衡,您可以不断收集所有数据的统计属性,并不时重新训练您的模型以适应不断变化的数据。我不知道Clustream但是经过短暂的谷歌搜索:它似乎是一种有助于做出这种权衡的算法。