如何检测和删除rapidminer中的噪音?

时间:2014-08-30 15:13:37

标签: data-mining rapidminer

我是快速采矿者5的新手,只是想知道如何在我的数据中查找噪音并在图表中显示它们以及如何删除它们?

1 个答案:

答案 0 :(得分:3)

一个复杂的问题,因为它取决于你所说的噪音。

如果您的意思是找到其值非常错误的单个属性,那么您可以绘制直方图视图并对构成有效值的内容进行某种限制。然后,您可以使用Filter Examples删除它们来强加该规则。

如果您的意思是找到应用了某种随机抖动的属性,则很难检测出这些属性。只有事先知道分布的预期形状是什么,你才能与观察相比较并做些什么。但是,采取的行动并不明显。

如果您的意思是在示例集中查找与其他示例明显不同的示例,则可以考虑使用各种异常值函数。最简单的入门是Detect Outlier (Distances)。这将根据使用示例的所有属性的距离计算找到一定数量的异常值(默认值为10)。它创建一个名为outlier的新属性,该属性设置为true或false。然后,您可以使用Filter Examples运算符删除设置为true的那些运算符。

希望至少有助于开始。