我有一个看起来像这样的数据集
ID Products Methods
1 A Manual
1 A Auto
1 B Auto
1 B Auto
2 C Manual
2 C Manual
2 C Auto
还有一个看起来像这样的规则矩阵
COLNAME VALUE RATIO COMPLEXITY
Products A 0.5 LOW
Products C 1 MEDIUM
Methods Manual 0.5 HIGH
例如,对于COLNAME中的“产品”列,如果VALUE = A的ID的计数大于0.5(比率),则“复杂度”为低
我最终需要获得如下所示的数据。
ID COMPLEXITY
1 LOW
2 HIGH
如果满足多个规则的条件,则较高复杂度的规则将优先于较低规则的
到目前为止,我的方法是为规则矩阵中的每个COLNAME创建一个交叉表,这样我就有类似的东西
Products
ID A B C
1 0.5 0.5 0
2 0 0 1
Methods
ID Auto Manual
1 0.75 0.25
2 0.33 0.66
但是,我不确定在规则矩阵上引用比率的最佳方法是什么