Question

我有点惊讶我在SO上找不到这个问题的解决方案，但我已经尝试了我认为可能适用的每个搜索词。但是，我可能没有使用正确的搜索字词，所以请原谅我，如果这是重复的，请指出我正确的方向。我有按样本分组的数据，每个样本对每个类别都有一个值，其中有很多。这是一个示例数据框（请注意，样本数和类别数通常不同）：

df <- data.frame( sample = c( "one", "two", "three", "four" ), 
  cat_1 = c( 2, 4, -6, 2 ), cat_2 = c( 1, 2, 2, 1 ), 
  cat_3 = c( 5, -5, 7, 2 ) )

我正在尝试创建一个图表，其中x轴具有每个类别的离散点，y轴是每个类别的所有样本的值，并且各个类别的每个样本的值通过线连接我可以定义的颜色。

似乎ggplot2是前往这里的方式，但我无法找到一种方法来实现我想要的方式。在使用colnames( dd )时，我似乎希望aes()成为x轴变量，但这警告我x和y的长度不同。看起来这样做应该很简单，但我无法弄清楚。

编辑：我遇到过这篇文章Plotting multiple variables from same data frame in ggplot，答案显示了我想要制作的确切类型，但我无法弄清楚如何使用melt更改我的帖子数据框格式为将列名称cat_1，cat_2，cat_3作为id.vars。

Answer 1

melt包中的函数reshape2将数据转换为长格式。它将一组列堆叠到一列中。您可能希望定义 id变量，在调用函数后它将保持不变。

如果不带参数调用，melt 将假设因子和字符变量是id变量，而所有其他变量都是。此外，它还提供了默认的列名：＆＃34;变量＆＃34;和＆＃34;价值＆＃34;。在结果中，旧列名称是新列＆＃34;变量＆＃34;。

下的行

library(reshape2)
> melt(df)
Using sample as id variables
   sample variable value
1     one    cat_1     2
2     two    cat_1     4
3   three    cat_1    -6
4    four    cat_1     2
5     one    cat_2     1
6     two    cat_2     2
7   three    cat_2     2
8    four    cat_2     1
9     one    cat_3     5
10    two    cat_3    -5
11  three    cat_3     7
12   four    cat_3     2

对于您的问题，您可以使用以下代码，指定id_vars，并指定更多信息性的列名称（结构保持不变）：

df2 <- melt(df, id_vars = sample, variable.name = "category", value.name = "value")

> df2
   sample category value
1     one    cat_1     2
2     two    cat_1     4
3   three    cat_1    -6
4    four    cat_1     2
5     one    cat_2     1
6     two    cat_2     2
7   three    cat_2     2
8    four    cat_2     1
9     one    cat_3     5
10    two    cat_3    -5
11  three    cat_3     7
12   four    cat_3     2

ggplot(df2, aes( x=category, y=value, group=sample, col=sample)) + 
  geom_line()

产生以下情节

请告诉我这是否是你想要的。

使用R

1 个答案: