Weka离散属性,其中一个值到目前为止最常见

时间:2017-04-01 10:56:59

标签: weka data-mining

我有一个数据集,其中有“自上次联系以来的天数”的数字属性,但值-1用于表示没有最后一次联系。它是迄今为止该属性的最大值。

我的想法是对这个属性进行分类,但我怎样才能确保有“无联系”/ - 1个bin?

另外,这是解决这个问题的正确方法吗?

2 个答案:

答案 0 :(得分:1)

据说正确的方法是

  1. 将数据拆分为-1以及其他所有内容
  2. 仅将binning应用于“其他所有内容”设置中的值
  3. 再次连接数据集(也可以改组)

答案 1 :(得分:0)

如果其他人有这个问题并且找不到答案,那么我就是根据Anony-Mousse的方法做到的。 MathExpression的过滤器文档提供了一个分成任意二进制文件的好例子。

  1. 使用MathExpression过滤器拆分,例如ifelse(A> 0,2,1)分成两个区间:高于和低于0.我使用ifelse(A> 0,ifelse(A> 400,21,ceil(A / 20)+1),1) bin my -1和> 400值,以及值之间的宽度为20的区间。
  2. 使用numericToNominal转换