仅在OTHER字段中出现一次的组值

时间:2015-06-01 15:56:42

标签: r ggplot2

我有一个罗马硬币的集合,我试图用R中的ggplot来表示。

数据中有25种不同的面额,但我想将只有一次出现的所有面额合并到一个“OTHER”字段中,以便图表更易于阅读。

  Medium Method Denom            Date                  Era
1 Silver Struck Denarius         112 B.C.E.:111 B.C.E. Period V – c. 119-91 B.C.E.
2 Bronze   Cast Χαλκα μεγεθους   181 B.C.E.:174 B.C.E. Period III – c. 187-155 B.C.E.
3 Bronze Struck Litra:Half-litra            269 B.C.E. Period I – 269 - c. 222 B.C.E.
4 Bronze Struck Litra:Half-litra            269 B.C.E. Period I – 269 - c. 222 B.C.E.
5 Silver Struck Didrachm         275 B.C.E.:270 B.C.E. Period I – 269 - c. 222 B.C.E.
6 Bronze Struck Double-litra     275 B.C.E.:270 B.C.E. Period I – 269 - c. 222 B.C.E.

使用上面的data.frame示例,“Denom”列需要将每次只出现一次的值组合在一起并显示为“other”。我想我应该在开始绘图之前在数据中这样做。请指出我正确的方向。

如果有帮助的话,这是我用于ggplot的代码。

ggplot(data=longbadian, aes(x=Era, fill=Denom)) 
+    geom_bar(aes(x=Era2), data = longbadian, stat="bin") 
+ theme(axis.text.x =  element_text(angle=75, hjust=1), 
                       legend.title=element_blank()) 
+ xlab("Sydenham Periods") 
+ ylab("Coins by Denomination")

这是一个示例图表:

enter image description here

1 个答案:

答案 0 :(得分:5)

这样的事情:

## example data
dd <- data.frame(DENOM=rep(LETTERS[1:7],c(10,5,4,rep(1,4))))
tt <- table(dd$DENOM)                  ## count occurrences
singletons <- names(tt)[tt==1]         ## find singletons
tmpc <- as.character(dd$DENOM)         ## convert from factor to char
tmpc[tmpc %in% singletons] <- "OTHER"  ## replace values
dd$DENOM <- factor(tmpc)               ## convert back to factor

这个解决方案的唯一问题是它会搞砸任何问题 您DENOM因素中预先存在的非默认排序。