在可以将列变量用于建模之前,列的可接受方差是多少?

时间:2019-03-26 11:30:57

标签: python machine-learning statistics

我正在尝试创建分类模型。同时预处理数据。我看每一列的差异。这是每列中的差异量。我对建模之前应该记录转换的所有列感到困惑。可接受多少方差?可以请有人对此有所说明。

Temparature     2.318567e-01
HR              4.747868e+02
SpO2            1.179291e+01
SBP             6.263887e+02
MAP             2.905884e+02
RR              2.794205e+01
FiO2            9.061920e+00
PaO2            1.327011e+03
PaCO2           7.466527e+01
pH              4.851681e-03
A.a.gradient    0.000000e+00
HCO3            1.358290e+01
Hb              5.337076e+00
TLC             6.326940e+07
Platelets       1.062145e+10
K               3.332203e-01
Na              4.429681e+01
Serum.Cr        1.897277e+00
Blood.Urea      7.321509e+02
Bili            3.352918e+00
Urine.output    5.157271e+05
Lactate         3.795719e+00
INR             5.362644e-01
dtype: float64

2 个答案:

答案 0 :(得分:0)

我想说,仅查看列的方差对于删除方差为0的列最有用。

如果您的列至少具有最小的方差,则您不能得出结论,除非进一步调查,否则该列是无用的。

答案 1 :(得分:0)

我会说这取决于您对数据的先验。除非上下文附带,否则没有“可接受的方差范围”。

出于分类目的,最好训练尽可能多的样本,但是您确实希望像@desertnaut所建议的那样保留一些样本进行验证。 Buttom行:我将使用(例如)80%最多的可变列并对其进行对数转换。其余20%仍待验证。