ggplot中缺失值的数量

时间:2015-09-17 09:18:37

标签: r ggplot2 missing-data

我在R中有一个数据框如下:

gen    pos    count
A      1      10
A      2      20
A      3      15
A      4      
...
B      1      50
B      2      30
B      3      
B      4      40
...

数据框包含~30000行。 {300}中故意丢失count的值。我用这些数据绘制这些数据:

ggplot(data=d, aes(x=pos, y=count, group=gen, colour=gen)) + geom_line()

情节中缺少缺失的数据点,这就是我想要的。我很满意这个情节。

但是,ggplot会返回以下警告:

Removed 2 rows containing missing values (geom_path). 

如果有大约300个缺失值(count; genpos没有缺失值),为什么ggplot仅报告2?

1 个答案:

答案 0 :(得分:5)

举一个简单的例子:

df = data.frame(gen=rep(letters[1:3],each=6),
                y=c(NA,2,5,6,NA,8,9,NA,1,2,3,1,4,3,6.5,4.2,1,NA),
                x=rep(1:6,3))

ggplot(df, aes(x=x, y=y, colour=gen)) + geom_line()

我们有警告:

Warning message:
Removed 2 rows containing missing values (geom_path). 

通过查看下图,我们看到:

  • 对于 a 组,尽管没有NA,但最后一个坐标为(6,8)的点不存在。我们注意到它是一个孤立的点' (无法将其链接到具有(5, NA))的上一个值NA
  • 对于 b 组,尽管没有NA,但第一点缺席。它也是一个孤立点,不能链接到下一个值,因为它有NA
  • 对于 c 组,最后一点不存在,但这是正确的,因为它的y值为NA

因此,警告消息仅显示图表中删除了多少常规(非NA)但孤立点。这里2

enter image description here