Question

我正在尝试创建分类模型。同时预处理数据。我看每一列的差异。这是每列中的差异量。我对建模之前应该记录转换的所有列感到困惑。可接受多少方差？可以请有人对此有所说明。

Temparature     2.318567e-01
HR              4.747868e+02
SpO2            1.179291e+01
SBP             6.263887e+02
MAP             2.905884e+02
RR              2.794205e+01
FiO2            9.061920e+00
PaO2            1.327011e+03
PaCO2           7.466527e+01
pH              4.851681e-03
A.a.gradient    0.000000e+00
HCO3            1.358290e+01
Hb              5.337076e+00
TLC             6.326940e+07
Platelets       1.062145e+10
K               3.332203e-01
Na              4.429681e+01
Serum.Cr        1.897277e+00
Blood.Urea      7.321509e+02
Bili            3.352918e+00
Urine.output    5.157271e+05
Lactate         3.795719e+00
INR             5.362644e-01
dtype: float64

Answer 1

我想说，仅查看列的方差对于删除方差为0的列最有用。

如果您的列至少具有最小的方差，则您不能得出结论，除非进一步调查，否则该列是无用的。

Answer 2

我会说这取决于您对数据的先验。除非上下文附带，否则没有“可接受的方差范围”。

出于分类目的，最好训练尽可能多的样本，但是您确实希望像@desertnaut所建议的那样保留一些样本进行验证。 Buttom行：我将使用（例如）80％最多的可变列并对其进行对数转换。其余20％仍待验证。

在可以将列变量用于建模之前，列的可接受方差是多少？

2 个答案: