在回答@ j.jerrod.taylor的回答时,让我重新解释一下我的问题,以消除任何误解。
我是数据挖掘的新手,我正在学习如何通过“Bin Boundaries”使用等宽/距离分级方法平滑我的数据来处理噪声数据。假设数据集1,2,2,3,5,6,6,7,7,8,9。我想表演:
基于(Han,Kamber,Pei,2012,Data Mining Concepts and Techniques,Section 3.2.2 Noisy Data)中的定义:
在按边框平滑中,给定bin中的最小值和最大值被标识为 bin边界。然后将每个bin值替换为最接近的边界值。
Bin间隔= [1,3.7),[3.7,6.4],[6.4,9.1]
原Bin1:1,2,2,3 | Bin边界:(1,3)| Bin Boundaries的平滑值:1,1,1,3
问题: - 当使用Bin boundary方法进行分箱时, 8 在Bin3中属于哪里,因为它从7开始为+1而从9开始为-1?
答案 0 :(得分:0)
如果这是一个问题,那么您正在错误地计算您的bin宽度。例如,创建直方图是数据分箱的示例。
您可以阅读有关交叉验证的this回复。但总的来说,如果你想要整数,那么你的边界将是双倍的。
例如,如果您希望2到6之间的所有内容都在一个bin中,那么您的实际边界将是1.5到6.5。由于您的所有数据都是整数,因此无法对任何内容进行分类。
编辑:我也有同一本书,虽然看起来我有不同的版本,因为数据离散化部分在第2章而不是你所指出的第3章。根据你的问题,你似乎还没有真正理解这个概念。
以下是第88页第2章有关数据预处理的内容。我正在使用文本的第二版。
例如,可以通过应用等宽来离散属性值 或等频率分箱,然后用bin均值或替换每个bin值 中位数,如通过bin平均值平滑或bin中位数平滑。 8不属于bin 3以外的任何地方。这为您提供了两个选项。您可以采用落在bin 3中的所有数字的均值/中位数,也可以将bin 3用作类别。
根据你的例子,我们可以采用bin 3中4个数字的平均值。这给了我们7.75。我们现在将7.75用于该bin中的四个数字而不是7,7,8和9。
第二种选择是使用箱号。例如,bin 3中的所有内容都会获得3的类别标签,bin 2中的所有内容都会获得2的标签,等等。
答案 1 :(得分:0)
更新正确的答案:
我的课程最后涵盖了这个主题,我自己的问题的答案是8可以属于7或9.这种情况被描述为“打破平局”,其中值与任一边界的距离相等。所有这些值始终与同一边界相关联是可以接受的。
以下是NIH分析论文的一个真实示例,它解释了当遇到等距离值时使用“打破平局”:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807594/