使用R

时间:2017-07-11 04:20:24

标签: r ggplot2

我有点惊讶我在SO上找不到这个问题的解决方案,但我已经尝试了我认为可能适用的每个搜索词。但是,我可能没有使用正确的搜索字词,所以请原谅我,如果这是重复的,请指出我正确的方向。我有按样本分组的数据,每个样本对每个类别都有一个值,其中有很多。这是一个示例数据框(请注意,样本数和类别数通常不同):

df <- data.frame( sample = c( "one", "two", "three", "four" ), 
  cat_1 = c( 2, 4, -6, 2 ), cat_2 = c( 1, 2, 2, 1 ), 
  cat_3 = c( 5, -5, 7, 2 ) ) 

我正在尝试创建一个图表,其中x轴具有每个类别的离散点,y轴是每个类别的所有样本的值,并且各个类别的每个样本的值通过线连接我可以定义的颜色。

似乎ggplot2是前往这里的方式,但我无法找到一种方法来实现我想要的方式。在使用colnames( dd )时,我似乎希望aes()成为x轴变量,但这警告我xy的长度不同。看起来这样做应该很简单,但我无法弄清楚。

编辑:我遇到过这篇文章Plotting multiple variables from same data frame in ggplot,答案显示了我想要制作的确切类型,但我无法弄清楚如何使用melt更改我的帖子数据框格式为将列名称cat_1cat_2cat_3作为id.vars

1 个答案:

答案 0 :(得分:2)

melt包中的函数reshape2将数据转换为长格式。它将一组列堆叠到一列中。您可能希望定义 id变量,在调用函数后它将保持不变。

如果不带参数调用,melt 将假设因子和字符变量是id变量,而所有其他变量都是。此外,它还提供了默认的列名:&#34;变量&#34;和&#34;价值&#34;。在结果中,旧列名称是新列&#34;变量&#34;。

下的行
library(reshape2)
> melt(df)
Using sample as id variables
   sample variable value
1     one    cat_1     2
2     two    cat_1     4
3   three    cat_1    -6
4    four    cat_1     2
5     one    cat_2     1
6     two    cat_2     2
7   three    cat_2     2
8    four    cat_2     1
9     one    cat_3     5
10    two    cat_3    -5
11  three    cat_3     7
12   four    cat_3     2

对于您的问题,您可以使用以下代码,指定id_vars,并指定更多信息性的列名称(结构保持不变):

df2 <- melt(df, id_vars = sample, variable.name = "category", value.name = "value")

> df2
   sample category value
1     one    cat_1     2
2     two    cat_1     4
3   three    cat_1    -6
4    four    cat_1     2
5     one    cat_2     1
6     two    cat_2     2
7   three    cat_2     2
8    four    cat_2     1
9     one    cat_3     5
10    two    cat_3    -5
11  three    cat_3     7
12   four    cat_3     2

ggplot(df2, aes( x=category, y=value, group=sample, col=sample)) + 
  geom_line()

产生以下情节 enter image description here

请告诉我这是否是你想要的。