使用bin Boundaries平滑值:在哪里设置一个位于下边界和上边界之间的值?

时间:2016-04-27 08:16:29

标签: statistics data-mining binning

在回答@ j.jerrod.taylor的回答时,让我重新解释一下我的问题,以消除任何误解。

我是数据挖掘的新手,我正在学习如何通过“Bin Boundaries”使用等宽/距离分级方法平滑我的数据来处理噪声数据。假设数据集1,2,2,3,5,6,6,7,7,8,9。我想表演:

  1. 与3个区间的距离合并,和
  2. 根据#1中装箱的值,按Bin Boundaries平滑值。
  3. 基于(Han,Kamber,Pei,2012,Data Mining Concepts and Techniques,Section 3.2.2 Noisy Data)中的定义:

      

    按边框平滑中,给定bin中的最小值和最大值被标识为 bin边界。然后将每个bin值替换为最接近的边界值。

    • 间隔宽度=(max-min)/ k =(9-1)/ 3 = 2.7
    • Bin间隔= [1,3.7),[3.7,6.4],[6.4,9.1]

    • 原Bin1:1,2,2,3 | Bin边界:(1,3)| Bin Boundaries的平滑值:1,1,1,3

    • 原Bin2:5,6,6 | Bin边界:(5,6)| Bin Boundaries的平滑值:5,6,6
    • 原Bin 3:7,7,8,9 | Bin边界:(7,9)| Bin Boundaries的平滑值:7,7, 8 ,9

    问题:   - 当使用Bin boundary方法进行分箱时, 8 在Bin3中属于哪里,因为它从7开始为+1而从9开始为-1?

2 个答案:

答案 0 :(得分:0)

如果这是一个问题,那么您正在错误地计算您的bin宽度。例如,创建直方图是数据分箱的示例。

您可以阅读有关交叉验证的this回复。但总的来说,如果你想要整数,那么你的边界将是双倍的。

例如,如果您希望2到6之间的所有内容都在一个bin中,那么您的实际边界将是1.5到6.5。由于您的所有数据都是整数,因此无法对任何内容进行分类。

编辑:我也有同一本书,虽然看起来我有不同的版本,因为数据离散化部分在第2章而不是你所指出的第3章。根据你的问题,你似乎还没有真正理解这个概念。

以下是第88页第2章有关数据预处理的内容。我正在使用文本的第二版。

  

例如,可以通过应用等宽来离散属性值   或等频率分箱,然后用bin均值或替换每个bin值   中位数,如通过bin平均值平滑或bin中位数平滑。 8不属于bin 3以外的任何地方。这为您提供了两个选项。您可以采用落在bin 3中的所有数字的均值/中位数,也可以将bin 3用作类别。

根据你的例子,我们可以采用bin 3中4个数字的平均值。这给了我们7.75。我们现在将7.75用于该bin中的四个数字而不是7,7,8和9。

第二种选择是使用箱号。例如,bin 3中的所有内容都会获得3的类别标签,bin 2中的所有内容都会获得2的标签,等等。

答案 1 :(得分:0)

更新正确的答案:

我的课程最后涵盖了这个主题,我自己的问题的答案是8可以属于7或9.这种情况被描述为“打破平局”,其中值与任一边界的距离相等。所有这些值始终与同一边界相关联是可以接受的。

以下是NIH分析论文的一个真实示例,它解释了当遇到等距离值时使用“打破平局”:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807594/