我有一个包含50个变量(列)的数据集,其中30个缺失值超过其自身观察值的一半。
我想要对数据集进行子集化,其中包含过多缺失值的30个变量消失了。我想我可以一个接一个地做,但我只是想知道是否有办法在R中更快地做到这一点。
答案 0 :(得分:0)
逻辑:首先使用SELECT player1_result, date , results_id FROM `results`
WHERE player1_id = 2 AND community_id = 16
UNION ALL
SELECT player2_result, date, results_id FROM `results`
WHERE player2_id = 2 AND community_id = 16
ORDER BY date
DESC
Limit 8
遍历每一列,并检查所有列的缺失值是否少于一半。第一行的输出是一个逻辑向量,用于对数据进行子集化。
sapply