我必须准备和分类由10万多行和105个变量组成的数据集,我正在寻找建议。(我使用R)
基本上, 该集合充满了虚拟变量和缺失值(占整个数据集的44%)。
和Idk如何处理NA,我分为两个想法: 一世] 1-消除错误值超过70%的每一列 2-在剩余的列中用平均值或中位数替换缺失值
II] 消除所有缺失的值
你怎么看?
还有更多我可以做的准备数据吗? (与NA无关)
答案 0 :(得分:0)
缺失价值的归责这一主题在社会科学中有着悠久的历史,至少可以追溯到1980年代我当研究生时,不得不向密歇根州立大学的政治学教授解释为什么她无法复制以前进行的因子分析,因为SPSS从因子分析过程中取消了缺失值的均值替换选项。
关于如何处理统计分析中的缺失数据,有各种各样的研究(和观点)。例如,在Chapter 25的Data Analysis Using Regression and Multilevel / Hierarchical Models中,Gelman和Hill描述了多种估算一个变量以及多个变量的方法。
为了为特定数据集选择插补策略,必须评估为什么缺少数据。 Gelman&Hill回顾了“缺失机制”的四个主要类别,包括:
因此,在没有针对缺失机制分析原始海报的特定数据集的情况下,使用哪种插补技术的特定指导是不合适的。在Strategies for Handling Missing Values中可以找到有关缺失数据归因的其他研究。