我正在尝试创建分类模型。同时预处理数据。我看每一列的差异。这是每列中的差异量。我对建模之前应该记录转换的所有列感到困惑。可接受多少方差?可以请有人对此有所说明。
Temparature 2.318567e-01
HR 4.747868e+02
SpO2 1.179291e+01
SBP 6.263887e+02
MAP 2.905884e+02
RR 2.794205e+01
FiO2 9.061920e+00
PaO2 1.327011e+03
PaCO2 7.466527e+01
pH 4.851681e-03
A.a.gradient 0.000000e+00
HCO3 1.358290e+01
Hb 5.337076e+00
TLC 6.326940e+07
Platelets 1.062145e+10
K 3.332203e-01
Na 4.429681e+01
Serum.Cr 1.897277e+00
Blood.Urea 7.321509e+02
Bili 3.352918e+00
Urine.output 5.157271e+05
Lactate 3.795719e+00
INR 5.362644e-01
dtype: float64
答案 0 :(得分:0)
我想说,仅查看列的方差对于删除方差为0的列最有用。
如果您的列至少具有最小的方差,则您不能得出结论,除非进一步调查,否则该列是无用的。
答案 1 :(得分:0)
我会说这取决于您对数据的先验。除非上下文附带,否则没有“可接受的方差范围”。
出于分类目的,最好训练尽可能多的样本,但是您确实希望像@desertnaut所建议的那样保留一些样本进行验证。 Buttom行:我将使用(例如)80%最多的可变列并对其进行对数转换。其余20%仍待验证。