关于建模的知识非常有限,我试图用独立的连续变量PARAM_*
制作模型来描述每个离散的依赖Grp_*
。
目标是将这些模型与新数据进行比较以对其进行分类。
> my_training_df
GRPS PARAM_1 PARAM_2 PARAM_3 PARAM_4
Grp_A 2.20 -2.17 4.53 -0.39
Grp_A 0.30 3.29 3.98 3.38
Grp_A -2.33 -0.43 3.45 1.64
Grp_A 4.59 -1.92 0.83 -0.87
Grp_B -2.85 1.52 1.61 -0.28
Grp_B -0.31 2.47 -2.23 -2.47
Grp_B 4.03 0.49 -2.16 -0.42
Grp_C 0.50 2.04 1.03 1.33
Grp_C 1.80 4.40 2.20 2.12
Grp_C 4.19 4.55 0.12 -2.91
Grp_C 3.69 -1.88 1.56 2.73
Grp_C -1.02 3.37 4.95 2.96
我计划使用多元线性回归方法(它似乎是最容易开始的),但可以创建虚拟变量以将因变量转换为连续变量。
我不知道该模型如何运作:
GRPS = a + b1*PARAM_1 + b2*PARAM_2 + b3*PARAM_3 + b4*PARAM_4
我应该使用哪种方法(可能使用R)?
答案 0 :(得分:0)
Logistic回归是我猜的答案。 但是,如何选择如何将数据框分成训练和测试集(来自定性和定量POV)?