我在df
下面有一个数据框<-:
date item_type Weight effect y
2019-01-01 c 76 not important 792
2019-01-01 c 76 not important 792
2019-01-01 c 76 important 792
2019-01-01 f 60 important 792
2019-01-01 n 60 important 792
item_type
中的级别为10个级别,effect
中的级别为3个级别。我想知道item_type
和y
变量之间是什么关系。在这种情况下,我使用了编码对item_type
变量进行编码,然后使用了多元回归,但是 r2 是如此之低。
我应该使用如下所示的决策树:
reg<- rpart(y~item_type,data=df,
control = rpart.control(minsplit=1))
summary(reg)
y_pred <- predict(reg,data,frame(effect='important'& item_type='c'))
建立这种关系的最佳方法是什么?