从回归模型中确定属性值组合

时间:2013-12-13 10:03:45

标签: machine-learning regression decision-tree

我有一个回归相关的问题,但我不知道如何继续。考虑以下数据集,其中ABCD作为属性(要素)和每行的决策变量Dec:< / p>

  A   B   C   D   Dec
  a1  b1  c1  d1  Y
  a1  b2  c2  d2  N
  a2  b2  c3  d2  N
  a2  b1  c3  d1  N
  a1  b3  c2  d3  Y
  a1  b1  c1  d2  N
  a1  b1  c4  d1  Y

鉴于此类数据,我想找出Dec评估为Y的大多数紧凑规则。 例如,A=a1 AND B=b1 AND D=d1 => Y

我希望指定这些规则的精​​度阈值,以便我可以根据我的要求过滤掉它们。例如,我希望看到所有提供至少90%精度的规则。这可以为我提供更好的规则压缩。上面提到的规则提供100%的精度,而B=b1 AND D=d1 => Y具有66%的精度(它在第4行出错)。

含糊地说,我可以看到这类似于构建决策树并找出以Y结尾的路径。如果我理解正确,构建回归模型会为我提供最重要的属性,但我需要从导致Y的属性中组合实际值。

属性值为multi-valued,但这不是硬约束。我甚至可以假设它们是boolean

WekaR等现有工具中是否有可以帮助我的图书馆?

此致

1 个答案:

答案 0 :(得分:3)

我不认为这是回归问题。这似乎是一个分类问题,你试图对Y或N进行分类。你可以建立像Adaboost这样的集合学习者,看看决策如何在树之间变化,或者你可以做一些像弹性网络逻辑回归,看看最终权重是什么。