我有以下数据:
subject = c("S01","S02","S03","S04","S05","S06","S07","S08","S09","S10")
post = c(100,80,75,120,85,90,95,90,110,100)
pre = c(45,60,80,75,45,60,55,50,35,40)
data1 = as.data.frame(cbind(subject, post, pre))
然后我根据帖子列对数据进行了排序:
data1 = data1[order(data1$post),]
我最终想要的是一个散点图,比较post和pre列,相应地以不同的颜色。 X轴只是数据框的索引,但标有主题编号,因此轴标签将按主题编号的顺序排列,因为数据框按帖子列排序
如果我这样做:
plot(data1$post)
我所拥有的是条形图,甚至不是散点图。帖子栏的这个原因是一个因素吗?我为post和pre列尝试了“as.numeric”,但结果是相同的
如果我这样做:
plot(data1$post,data1$pre)
我有一个散点图,但索引从1到20.因此,我没有在同一索引1到10上进行比较分散,而是有两个分散,索引为1-10和11-20。
任何帮助指出我的错误都将不胜感激。
答案 0 :(得分:4)
将此称为“散点图”并不正确;其中一个变量是分类的,值是配对的。它实际上是一个dotplot的变种。使用as.data.frame(cbind(.))
的做法创造了一个数据怪物。
> data1
subject post pre
1 S01 100 45
10 S10 100 40
9 S09 110 35
4 S04 120 75
3 S03 75 80
2 S02 80 60
5 S05 85 45
6 S06 90 60
8 S08 90 50
7 S07 95 55
所有这些列都是因素,而不是数字,显然是有意的:
请改用此代码:
data1 = data.frame(subject=subject, post=post, pre=pre)
data1 = data1[order(data1$post),];
plot(data1$pre,type="p",ylim=range(data1$pre,data1$post),
xaxt="n", ylab="Pre/Post Scores: black=Pre, red=Post")
points(data1$post,col='red')
axis(1, at=1:10, labels=levels(data1$subject)[order(post)])
最后一行可能是:
axis(1, at=1:10, labels=as.character(data1$subject))) # since the set was sorted by `post`