我在R
中有一个数据框如下:
gen pos count
A 1 10
A 2 20
A 3 15
A 4
...
B 1 50
B 2 30
B 3
B 4 40
...
数据框包含~30000行。 {300}中故意丢失count
的值。我用这些数据绘制这些数据:
ggplot(data=d, aes(x=pos, y=count, group=gen, colour=gen)) + geom_line()
情节中缺少缺失的数据点,这就是我想要的。我很满意这个情节。
但是,ggplot
会返回以下警告:
Removed 2 rows containing missing values (geom_path).
如果有大约300个缺失值(count
; gen
或pos
没有缺失值),为什么ggplot
仅报告2?
答案 0 :(得分:5)
举一个简单的例子:
df = data.frame(gen=rep(letters[1:3],each=6),
y=c(NA,2,5,6,NA,8,9,NA,1,2,3,1,4,3,6.5,4.2,1,NA),
x=rep(1:6,3))
ggplot(df, aes(x=x, y=y, colour=gen)) + geom_line()
我们有警告:
Warning message:
Removed 2 rows containing missing values (geom_path).
通过查看下图,我们看到:
(6,8)
的点不存在。我们注意到它是一个孤立的点' (无法将其链接到具有(5, NA)
)的上一个值NA
。NA
,但第一点缺席。它也是一个孤立点,不能链接到下一个值,因为它有NA
。NA
。因此,警告消息仅显示图表中删除了多少常规(非NA)但孤立点。这里2
。