我试图创建一个两层旭日/圆环图(用于打印),其中第二层是第一层的详细视图。我已经阅读并理解了this tutorial,但我是R和ggplot2的新手,我在制作第二级时遇到了麻烦。在前面提到的文章中,根级只有一个元素(有点多余),而我的根有很多元素;其中,中学水平至少有1个,最多10个元素。
我们说我的数据有三列:name
,type
和value
;其中name
和type
分别定义根和第二级元素。每个name
只有type
all
value
,这是type
s name
s的总和(其中,{1}} type
的{{1}}集合中至少有一个name type value
----- ------- ------
foo all 444
foo type1 123
foo type2 321
bar all 111
bar type3 111
baz all 999
baz type1 456
baz type3 543
可以相交或相互排斥。例如:
data.all <- data[data$type == "all",]
ggplot(data.all, aes(x=1, y=data.all$value, fill=data.all$name)) + geom_bar(stat="identity")
我可以使用:
创建根级别堆栈(在转换为极坐标之前)type
第二级堆栈需要的是name
值在 +-----+ +-------+
| | | type3 |
| baz | +-------+
| | | type1 |
+-----+ +-------+
| | | |
| bar | | type3 |
| | | |
+-----+ +-------+
| | | type2 |
| foo | +-------+
| | | type1 |
-+-----+--+-------+-
值内对齐,与其值成比例:
type
(n.b。,这显然不是规模!)
我还需要对type1
值进行一致着色(例如foo
块的颜色应该与baz
和name
相同,等等。 )
我认为我可以将type
和data.other <- data[data$type != "other",]
data.other$comb <- paste(data.other$name, data.other$type, sep=":")
ggplot(data.other, aes(x=2, y=data.other$value, fill=data.other$comb)) + geom_bar(stat="identity")
列合并到一个新列中,然后通过此着色来实现此目的:
UIView
然而,这打破了着色的一致性 - 显然,事后看来 - 而且,有趣的是,我绝对不相信对齐是正确的。
我的R / ggplot2诞生可能很明显(对不起!);我怎样才能实现我想要的目标?
编辑我也遇到this question and answer,但我的数据与他们的数据不同。如果我的数据可以被塑造成相同的形状 - 我不知道该怎么做 - 那么我的问题就变成了他们的特例。
答案 0 :(得分:3)
这可能只是在那里,它可能无法很好地扩展到更复杂的数据集。我非常好奇如何做到这一点,并且有一个类似的更大的数据集,我试图想象工作,所以这实际上也帮助了我的工作:)
基本上我所做的是将数据集拆分为三个级别的数据框:父级别基本上是虚拟数据,级别1 df,每个名称下所有类型的总和(我想我可能只是过滤了您的type == "all"
的数据 - 我的工作数据没有类似的列),以及所有外部节点的级别2。将它们捆绑在一起,制作堆积条形图,给它极坐标。
我为工作做的那个有很多标签,而且它们很长,所以我用ggrepel::geom_text_repel
作为标签。他们很快变得笨拙和丑陋。
显然,这里的美学还有待改进,但我认为它可以根据自己的喜好进行美化。
library(tidyverse)
df <- "name type value
foo all 444
foo type1 123
foo type2 321
bar all 111
bar type3 111
baz all 999
baz type1 456
baz type3 543" %>% read_table2() %>%
filter(type != "all") %>%
mutate(name = as.factor(name) %>% fct_reorder(value, sum)) %>%
arrange(name, value) %>%
mutate(type = as.factor(type) %>% fct_reorder2(name, value))
lvl0 <- tibble(name = "Parent", value = 0, level = 0, fill = NA)
lvl1 <- df %>%
group_by(name) %>%
summarise(value = sum(value)) %>%
ungroup() %>%
mutate(level = 1) %>%
mutate(fill = name)
lvl2 <- df %>%
select(name = type, value, fill = name) %>%
mutate(level = 2)
bind_rows(lvl0, lvl1, lvl2) %>%
mutate(name = as.factor(name) %>% fct_reorder2(fill, value)) %>%
arrange(fill, name) %>%
mutate(level = as.factor(level)) %>%
ggplot(aes(x = level, y = value, fill = fill, alpha = level)) +
geom_col(width = 1, color = "gray90", size = 0.25, position = position_stack()) +
geom_text(aes(label = name), size = 2.5, position = position_stack(vjust = 0.5)) +
coord_polar(theta = "y") +
scale_alpha_manual(values = c("0" = 0, "1" = 1, "2" = 0.7), guide = F) +
scale_x_discrete(breaks = NULL) +
scale_y_continuous(breaks = NULL) +
scale_fill_brewer(palette = "Dark2", na.translate = F) +
labs(x = NULL, y = NULL) +
theme_minimal()
由reprex package(v0.2.0)创建于2018-04-24。
答案 1 :(得分:1)
可以使用ggsunburst(如camille建议的那样)。 ggsunburst读取newick和csv(或任何分隔符分隔的)文件。 您需要安装最新版本0.0.9才能使此示例正常工作
# first row with header is mandatory
# remove lines with type "all" from your data
# add colour as additional column
df <- read.table(header=T, text =
"parent node size colour
foo type1 123 type1
foo type2 321 type2
bar type3 111 type3
baz type1 456 type1
baz type3 543 type3")
# write data.frame into csv file
write.table(df, file = 'df.csv', row.names = F, sep = ",")
# install ggsunburst 0.0.9
if (!require("ggplot2")) install.packages("ggplot2")
if (!require("rPython")) install.packages("rPython")
install.packages("http://genome.crg.es/~didac/ggsunburst/ggsunburst_0.0.9.tar.gz", repos=NULL, type="source")
library(ggsunburst)
sb <- sunburst_data('df.csv', type = "node_parent", sep = ',', node_attributes = 'colour')
sunburst(sb, rects.fill.aes = "colour", node_labels = T, node_labels.min = 25)
答案 2 :(得分:0)
我一直在寻找一种使用ggplot进行此类绘图的方法。 @camille的回答真的很有帮助!我最终使用this answer here too为这个问题创建了一个稍作修改的答案。
已经快一年了,但也许其他人仍在寻找这种答案!也许其他答案中提到的其他软件包更有用,但是对于那些希望留在ggplot中的人来说,希望这可以有所帮助。
我认为我可以做到OP所要求的(始终为第二级着色),尽管我不确定这是否是最佳选择。
我使用geom_col
而不是使用geom_rect
。这为我们提供了更大的灵活性,并且还更好地控制了每个矩形的绘制位置(堆叠的条始终会出现顺序条堆叠的问题)。而且,很奇怪,在极坐标geom_col
中最终绘制了从0到x的所有派。因此,@ camille必须使用填充物的透明胶片才能获得所需的结果。在geom_rect
中,我们可以设置xmin
和xmax
以获得所需的确切形状。
但是我们需要进行一些数据处理以使数据框保持良好状态。
此外,我要绘制的剧情中有些第二级是空的。因此,我对数据集进行了一些更改,以包含一个附加的第一级类,而没有第二级类。
这是我的解决方法:
library(tidyverse)
library(ggplot2)
library(RColorBrewer)
df <- "name type value
foo all 444
foo type1 123
foo type2 321
bar all 111
bar type3 111
baz all 999
baz type1 456
baz type3 543
boz - 222" %>% read_table2() %>% filter(type != 'all') %>%
mutate(type=ifelse(type=='-', NA, type)) %>% arrange(name, value)
# here I create the columns xmin, xmax, ymin, ymax using cumsum function
# (be VERY careful with ordering of rows!)
# I also created a column 'colour' which I map to the asthetic 'colour' (colour of line of each rectangle)
# it is a boolean saying if a line should or should not be drawn.
# for empty second levels i want to draw an empty space (no fill and no line)
# define a padding space between the levels of the pie chart
padding <- 0.05
# create df for level 0
lvl0 <- tibble(name = "Parent", value = 0, level = 0, fill = NA) %>%
mutate(xmin=0, xmax=1, ymin=0, ymax=value) %>%
mutate(x.avg=0, y.avg=0, colour=FALSE)
print(lvl0)
# create df for level 1
lvl1 <- df %>%
group_by(name) %>%
summarise(value = sum(value)) %>%
ungroup() %>%
mutate(level = 1) %>%
mutate(fill = name) %>%
mutate(xmin=1+padding, xmax=2, ymin=0, ymax=cumsum(value)) %>%
mutate(ymin=lag(ymax, default=0),
x.avg=(xmin+xmax)/2,
y.avg=(ymin+ymax)/2,
colour=TRUE)
print(lvl1)
# create df for level 2
lvl2 <- df %>%
select(name = type, value, fill = name) %>%
mutate(level = 2) %>%
mutate(fill=paste0(fill, '_', name)) %>%
mutate(xmin=2+padding, xmax=3, ymin=0, ymax=cumsum(value)) %>%
mutate(ymin=lag(ymax, default=0),
x.avg=(xmin+xmax)/2,
y.avg=(ymin+ymax)/2,
colour=ifelse(grepl('_NA', fill), FALSE, TRUE))
print(lvl2)
# this is my dirty workaround for defining the colours of levels 1 one 2 independently. Probably not the best way and
# maybe it will not scale very well... But for this small data set it seemed to work...
# number of classes in each level (don't include NA)
n.classes.1 <- 4
n.classes.2 <- 3
n.classes.total <- n.classes.1 + n.classes.2
# get colour pallete for level 1
col.lvl1 <- brewer.pal(n.classes.total,"Dark2")[1:n.classes.1]
names(col.lvl1) <- as.character(unique(lvl1$name))
# get colour pallete for level 2 (don't include NA)
col.lvl2 <- brewer.pal(n.classes.total,"Dark2")[(n.classes.1+1):n.classes.total]
names(col.lvl2) <- as.character(unique(lvl2$name)[!is.na(unique(lvl2$name))])
# compile complete color pallete
fill.pallete <- c(col.lvl1)
for (l1 in as.character(unique(lvl1$name))) {
for (l2 in as.character(unique(lvl2$name))) {
if (!is.na(l2)) {
name.type <- paste0(l1, '_', l2)
aux <- col.lvl2[l2]
names(aux) <- name.type
fill.pallete <- c(fill.pallete, aux)
} else {
# if level2 is NA, then assign transparent colour
name.type <- paste0(l1, '_NA')
aux <- NA
names(aux) <- name.type
fill.pallete <- c(fill.pallete, aux)
}
}
}
print(fill.pallete)
# put all data frames together for ggplot
df.total <- bind_rows(lvl0, lvl1, lvl2) %>%
mutate(name = as.factor(name) %>% fct_reorder2(fill, value)) %>%
arrange(fill, name) %>%
mutate(level = as.factor(level))
print(df.total)
# create plot (it helped me to look at the rectangular coordinates first before changing to polar!)
g <- ggplot(data=df.total, aes(fill = fill)) +
geom_rect(aes(ymax=ymax, ymin=ymin, xmax=xmax, xmin=xmin, colour=colour), size = 0.1) +
scale_fill_manual(values = fill.pallete, , guide = F, na.translate = FALSE) +
scale_color_manual(values = c('TRUE'='gray20', 'FALSE'='#FFFFFF00'),
guide = F, na.translate = FALSE) +
geom_text(aes(x = x.avg, y = y.avg, label = name), size = rel(2.5)) +
scale_x_discrete(breaks = NULL) +
scale_y_continuous(breaks = NULL) +
labs(x = NULL, y = NULL) +
theme_minimal() +
theme(panel.grid=element_blank()) +
coord_polar(theta = "y", start = 0, direction = -1)
print(g)
答案 3 :(得分:-1)
根据推荐的网页,尝试以下操作:
library(ggplot2)
library(dplyr)
library(scales)
toRead <- "name type value
foo all 444
foo type1 123
foo type2 321
bar all 111
bar type3 111
baz all 999
baz type1 456
baz type3 543"
data <- read.table(textConnection(toRead), header = TRUE)
closeAllConnections()
sum_total_value = sum(data$value)
firstLevel = data %>% summarize(total_value=sum(value))
sunburst_0 = ggplot(firstLevel) # Just a foundation
sunburst_1 =
sunburst_0 +
geom_bar(data=firstLevel, aes(x=1, y=total_value), fill='darkgrey', stat='identity') +
geom_text(aes(x=1, y=sum_total_value/2, label=paste('Sum of all VALUE had', comma(total_value))), color='white')
sunburst_1
sunburst_1 + coord_polar('y')
sum_val = data %>% group_by(type) %>%
summarize(total_value=sum(value)) %>%
arrange(desc(total_value))
sunburst_2 <- sunburst_1 +
geom_bar(data=sum_val,
aes(x=2, y=total_value, fill=total_value),
color='white', position='stack', stat='identity', size=0.6) +
geom_text(data=sum_val, aes(label=paste(type, total_value), x=2, y=total_value), position='stack')
sunburst_2
如果您想在极坐标上使用此功能,可以添加以下内容:
sunburst_2 + coord_polar('y')
这给了你: