我有一个回归相关的问题,但我不知道如何继续。考虑以下数据集,其中A
,B
,C
和D
作为属性(要素)和每行的决策变量Dec
:< / p>
A B C D Dec
a1 b1 c1 d1 Y
a1 b2 c2 d2 N
a2 b2 c3 d2 N
a2 b1 c3 d1 N
a1 b3 c2 d3 Y
a1 b1 c1 d2 N
a1 b1 c4 d1 Y
鉴于此类数据,我想找出Dec
评估为Y
的大多数紧凑规则。
例如,A=a1 AND B=b1 AND D=d1 => Y
。
我希望指定这些规则的精度阈值,以便我可以根据我的要求过滤掉它们。例如,我希望看到所有提供至少90%精度的规则。这可以为我提供更好的规则压缩。上面提到的规则提供100%的精度,而B=b1 AND D=d1 => Y
具有66%的精度(它在第4行出错)。
含糊地说,我可以看到这类似于构建决策树并找出以Y
结尾的路径。如果我理解正确,构建回归模型会为我提供最重要的属性,但我需要从导致Y
的属性中组合实际值。
属性值为multi-valued
,但这不是硬约束。我甚至可以假设它们是boolean
。
Weka
或R
等现有工具中是否有可以帮助我的图书馆?
此致
答案 0 :(得分:3)
我不认为这是回归问题。这似乎是一个分类问题,你试图对Y或N进行分类。你可以建立像Adaboost这样的集合学习者,看看决策如何在树之间变化,或者你可以做一些像弹性网络逻辑回归,看看最终权重是什么。