r

时间:2018-04-22 09:42:24

标签: r data-cleaning

我的数据集是编码为整数(从1到6)的分类数据和数值数据(没有标准化)之间的混合。我使用r语言来适应不同的模型,我担心我的数据编码不能代表我的数据的性质。 您可以在下面找到我的数据集结构的视图。

'data.frame':   173 obs. of  72 variables:
 $ Diagnosis                           : int  2 3 3 3 3 2 3 2 3 1 ...
 $ INDICATION                          : int  2 2 2 3 2 2 2 2 2 2 ...
 $ Clopidogrel.loading.dose            : int  4 4 6 4 6 4 4 4 4 6 ...
 $ Time.of.collection..Hours.          : int  1 2 1 1 1 2 1 1 1 1 ...
 $ Clopidogrel.maintenance.dose        : int  1 2 1 1 1 1 1 1 1 1 ...
 $ Clopidogrel.carboxylic.acid..ng.ml. : num  1740 740 2060 9310 7720 2110 7760 5140 6400 528 ...
 $ Clopidogrel..pg.ml.                 : num  9010 99.5 597 848 652 473 6800 808 973 453 ...
 $ Clopidogrel.acyl.glucuronide..ng.ml.: num  2610 235 6840 7620 19000 1310 9090 1970 26200 6840 ...
 $ Clopidogrel.active.metabolite       : num  0 0 930 3471 0 ...
 $ CYP2C19.2                           : int  1 1 1 1 1 1 2 2 1 2 ...
 $ CYP2C19.17                          : int  2 2 1 2 2 1 1 1 2 1 ...
 $ CYP2C9.2..rs1799853.                : int  2 3 1 1 1 1 2 1 2 1 ...
 $ CYP2C9.3..rs1057910.                : int  1 1 1 1 1 1 1 1 1 1 ...
 $ Number.of.dilated.artery            : int  1 1 1 0 1 1 1 2 1 1 ...
 $ Type.of.artery.1                    : int  1 2 2 2 2 2 2 1 2 3 ...
 $ Number.of.stents.Artery1            : int  2 2 1 1 1 1 1 1 1 1 ...
 $ Clopidogrel.treatment.duration      : int  1 1 1 1 1 1 1 1 1 1 ...
 $ Coronarography.results              : int  2 3 3 1 1 2 2 2 1 2 ...
 $ Event.time                          : int  2 0 1 0 1 3 1 6 0 0 ...
 $ Event                               : int  1 1 2 1 2 1 1 1 1 1 ...
 $ Age                                 : int  1 2 2 2 1 1 2 1 1 1 ...
 $ Sexe                                : int  2 1 1 2 2 2 1 1 1 1 ...
 $ Obesity                             : int  4 4 3 2 4 4 1 4 2 2 ...
 $ Hypertension                        : int  1 2 1 2 2 1 2 2 1 1 ...
 $ Diabetes                            : int  1 2 2 2 1 1 2 2 2 2 ...
 $ Non.insulinodependant.diabetes      : int  1 2 2 2 1 2 2 2 2 2 ...
 $ Insulin.dependent.diabetes          : int  2 2 2 2 2 1 2 2 2 2 ...
 $ Smoking                             : int  2 1 1 2 2 2 1 1 2 1 ...
 $ Dyslipidemia                        : int  1 1 1 2 1 1 1 2 2 1 ...
 $ HyperCT                             : int  2 2 2 2 2 2 1 2 2 2 ...
 $ HyperTG                             : int  1 1 1 2 2 1 2 2 2 1 ...
 $ Mixed.dyslipidemia                  : int  2 2 2 2 1 2 2 2 2 2 ...
 $ Family.history.of.CAD               : int  2 1 2 2 1 2 2 2 2 2 ...
 $ Renal.failure                       : int  2 2 2 2 2 2 2 2 1 1 ...
 $ Previous.MI                         : int  2 1 2 2 2 2 2 1 2 2 ...
 $ Previous.PCI                        : int  2 2 2 2 2 2 2 2 2 1 ...
 $ Previous.CABG                       : int  2 2 2 2 2 2 2 1 2 2 ...
 $ Previous.stroke                     : int  2 2 2 2 2 2 2 2 1 2 ...
 $ Alcohol                             : int  2 2 2 2 2 2 2 2 2 2 ...
 $ Systolic.blood.pressure             : num  140 110 110 120 140 140 110 120 130 120 ...
 $ Dyastolic.blood.pressure            : num  80 70 70 70 80 80 60 80 80 80 ...
 $ Glycemia                            : num  12 5 8 7 7 13 6 6 6 7 ...
 $ Creatinine                          : num  180 90 104 76 121 92 100 120 400 800 ...
 $ Urea                                : num  11 5 9 3.5 6 4.4 6 5.5 30 14 ...
 $ CPK                                 : num  65 214 6000 420 113 ...
 $ Triglyceride                        : num  2.99 1.25 1.7 1.2 1.49 3.94 0.61 1.05 1.33 4.89 ...
 $ Cholesterol.total                   : num  4.58 3.6 4.28 5.3 4.7 5.06 7.88 3.25 4.14 5.08 ...
 $ Na                                  : num  138 136 140 138 138 139 138 139 135 130 ...
 $ Cl                                  : num  106 104 103 102 102 102 100 104 100 100 ...
 $ K                                   : num  4.5 4 3.1 3.6 3.7 4 4 4.78 4.5 6 ...
 $ Leukocytes                          : num  8000 9450 15000 11600 15000 6000 10000 7600 10000 9000 ...
 $ Hemoglobin                          : num  12 14.5 12 12.1 10.7 11.2 14.8 14 11 13.1 ...
 $ Platelets                           : num  250000 230000 300000 379000 213000 219000 180000 148000 250000 213000 ...
 $ Statins                             : int  3 4 1 3 0 0 4 3 0 0 ...
 $ Dose.statins                        : num  20 10 10 20 20 20 10 20 20 20 ...
 $ Aspirin                             : int  1 1 1 1 1 1 1 1 1 0 ...
 $ Aspirin.loading.dose                : num  250 250 250 250 250 250 250 100 250 250 ...
 $ AVK                                 : int  0 0 0 0 0 0 0 0 0 0 ...
 $ ACE.inhibitor                       : int  2 2 3 2 0 2 0 2 0 0 ...
 $ DOSE.IEC                            : num  75 37.5 2.5 25 37.5 75 37.5 25 37.5 37.5 ...
 $ Angiotensin.II.receptor.antagonist  : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Beta.blockers                       : int  1 4 4 1 0 0 0 6 4 0 ...
 $ DOSE.BB                             : num  25 2.5 1.25 25 25 25 25 200 1.25 25 ...
 $ Calcium.channel.blocker             : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Diuretic                            : int  0 0 1 0 1 0 0 0 1 0 ...
 $ Diuretic.ARAII                      : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Proton.pump.inhibitor               : int  1 0 1 1 1 1 1 0 1 0 ...
 $ dose.ipp                            : num  40 40 40 40 80 40 40 40 40 40 ...
 $ Nitrated.derivatives                : int  1 1 0 1 0 1 0 0 1 0 ...
 $ AGRASTAT                            : int  0 0 1 0 0 0 1 0 0 0 ...
 $ Reopro                              : int  0 0 0 1 0 0 0 0 0 0 ...
 $ Cardio1M                            : Factor w/ 2 levels "anomalous","normal": 2 2 1 2 1 2 2 2 2 2 ... 

1 个答案:

答案 0 :(得分:0)

继上述评论之后:

  1. 是的,您应该将整数变量转换为与其真实数据类型一致的因子,并避免任何可解释性问题,
  2. 取决于异常值/极值的存在。一般来说,正常化不会造成任何伤害,建议使用。