我从网上抓取并处理了一些数据:
>head(dat)
count name episode percent
1 309 don 01-a-little-kiss 0.27081507
2 220 megan 01-a-little-kiss 0.19281332
3 158 joan 01-a-little-kiss 0.13847502
4 113 peggy 01-a-little-kiss 0.09903593
5 107 roger 01-a-little-kiss 0.09377739
6 81 pete 01-a-little-kiss 0.07099036
我正在尝试创建堆积区域图表,类似于此处的图表:Making a stacked area plot using ggplot2
我做的时候
require(RCurl)
require(ggplot2)
link <- getURL("http://dl.dropbox.com/u/25609375/so_data/final.txt")
dat <- read.csv(textConnection(link), sep=' ', header=FALSE,
col.names=c('count', 'name', 'episode'))
dat <- ddply(dat, .(episode), transform, percent = count / sum(count))
ggplot(dat, aes(episode, percent, group=name)) +
geom_area(aes(fill=name, colour=name), position='stack')
我得到了这张奇怪的图表。
我希望区域不要相互交叉,并填充整个画布,因为每个episode
因子的总百分比等于100%。
答案 0 :(得分:8)
这很有趣。你错过了一行(Lane没出现在Tea Leaves ......?),所以
dat2 <- rbind(dat,data.frame(count = 0,name = 'lane',
episode = '02-tea-leaves',percent = 0))
ggplot(arrange(dat2,name,episode), aes(x = episode,y = percent)) +
geom_area(aes(fill=name,group = name), position='stack')
似乎有效。但它必须也是正确的顺序,我不完全确定原因。