GGally :: ggpairs在处理NA时对于不同的变量表现不同

时间:2018-09-06 19:50:27

标签: r ggplot2 ggally

我有一个加载有readr的数据集,该数据集包含2341行,401列和几个NA。我正在尝试创建具有连续变量子选项的散点图矩阵

这是我使用的某些变量中的glimpse

Observations: 2,341
Variables: 3
$ Height <dbl> 175.2000, 175.0000, 174.7000, 174.0000, 173.0000, ...
$ gender <fct> Male, Male, Male, Male, Male, Male, Male, Male, Male, ...
$ lb_pp  <dbl> 55.00000, 50.00000, 40.00000, 56.00000,  60.00000, ...

变量Heightlb_ppgender分别具有98、150和0个NA。

大多数变量行为良好,并且在图中正常显示。当我使用具有150个NA的变量时,ggpairs会发出警告(以下警告消息),但是我得到的图没有问题,如下所示:

Warning message:
“Removed 150 rows containing non-finite values (stat_boxplot).”`stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Warning message:
“Removed 150 rows containing non-finite values (stat_bin).”Warning message:
“Removed 150 rows containing non-finite values (stat_density).”

Example image using variable with NA that produces expected output

但是当我使用另一个变量height时,它会因不同的警告消息和搞砸的图表而停滞不前:

Warning message:
“Removed 98 rows containing non-finite values (stat_count).
”Warning message:
“Computation failed in `stat_count()`:
arguments imply differing number of rows: 392, 400, 1
”Warning message:
“Computation failed in `stat_count()`:
arguments imply differing number of rows: 542, 574, 1
”Warning message:
“Removed 98 rows containing non-finite values (stat_count).”Warning message:
“Computation failed in `stat_count()`:
arguments imply differing number of rows: 392, 400, 1”

Example image using variable with NA that produces unexpected output

我能够通过过滤出麻烦的变量具有NA的行来解决该问题,但是为什么我必须对某些变量而不是其他变量这样做呢?当我询问TRUE时,两个变量都返回is.numeric。有什么区别?

感谢您的帮助。

0 个答案:

没有答案