Question

我对R还是很陌生，所以我希望有人可以帮助我。我的其中一个脚本的输出表是下面的averagetable，它显示了三个不同群集中事件Standing的不同比例：

> print(averagetable)
   Group.1  Standing
1 cluster1  0.5642857
2 cluster2  0.7795848
3 cluster3  0.7922980

请注意，每次我运行脚本时，R可以为cluster1上的值分配不同的群集名称（cluster2，cluster3或averagetable$Standing）。另一个输出可以是：

> print(averagetable)
   Group.1 Standing
1 cluster1 0.7795848
2 cluster2 0.5642857
3 cluster3 0.7922980

另一方面，我的脚本生成tableresults数据帧。请在下面找到一个head()示例：

> head(tableresults)
  ACTIVITY_X ACTIVITY_Y ACTIVITY_Z winning_cluster
1         19         21         28        cluster3
2         20         14         24        cluster3
3         34         35         49        cluster3
4         18          5         19        cluster2
5         23         27         35        cluster3
6         33         20         39        cluster3

我的问题很简单。我想根据以下三个规则来更改tableresults列中的字符串的winning_cluster中的数据：

1）在Standing中写入tableresults$wining_cluster，替换为Standing中具有最高averagetable值的集群名称。

2）将Moving/Feeding写入tableresults$wining_cluster，并替换为Standing中具有第二高averagetable值的集群名称。

3）将Feeding/Moving中的tableresults$wining_cluster写入Standing中具有第三高averagetable值的集群名称中。

换句话说，这是所需的输出：

> head(tableresults_output)
  ACTIVITY_X ACTIVITY_Y ACTIVITY_Z winning_cluster
1         19         21         28        Standing
2         20         14         24        Standing
3         34         35         49        Standing
4         18          5         19        Moving/Feeding
5         23         27         35        Standing
6         33         20         39        Standing

请注意，具有一个基于值的层次结构组件将根据averagetable值分配条件1）2）或3）非常重要。使用以下方法无法解决此问题：

averagetable$classification <- factor(x = as.character(sort(averagetable$Standing)),
                labels = c('Feeding/Moving', 'Moving/Feeding','Standing'))

使用此命令，Standing将始终链接到cluster1，Moving/Feeding会链接到cluster2，Feeding/Moving会链接到cluster3，但这并不一定重新生成averagetable时为true。

无论如何，我们将不胜感激，希望我的问题对论坛足够有趣。

Answer 1

只需在第一个classification中创建您的data.frame，然后与您的tableresults合并

averagetable$classification <- factor(x = as.character(sort(averagetable$Standing)),
                            labels = c('Feeding/Moving', 'Moving/Feeding', 'Standing'))

        Group.1     Moving   Feeding  Standing classification
1: cluster1 0.08214286 0.3216518 0.5642857 Feeding/Moving
2: cluster2 0.04978355 0.1470238 0.7795848 Moving/Feeding
3: cluster3 0.03750000 0.1462121 0.7922980       Standing

merge(tableresults, 
      averagetable[, c('Group.1', 'classification')],
      by.x = 'winning_cluster', by.y = 'Group.1', all.x = T)

   winning_cluster ACTIVITY_X ACTIVITY_Y ACTIVITY_Z classification
1:        cluster2         18          5         19 Moving/Feeding
2:        cluster3         19         21         28       Standing
3:        cluster3         20         14         24       Standing
4:        cluster3         34         35         49       Standing
5:        cluster3         23         27         35       Standing
6:        cluster3         33         20         39       Standing

Answer 2

这是一个刺：


tableresults <- read.table(header=TRUE, stringsAsFactors=FALSE, text="
  ACTIVITY_X ACTIVITY_Y ACTIVITY_Z winning_cluster
1         19         21         28        cluster3
2         20         14         24        cluster3
3         34         35         49        cluster3
4         18          5         19        cluster2
5         23         27         35        cluster3
6         33         20         39        cluster3")

averagetable <- read.table(header=TRUE, stringsAsFactors=FALSE, text="
   Group.1  Standing
1 cluster1  0.5642857
2 cluster2  0.7795848
3 cluster3  0.7922980")

averagetable$x <- c("Standing", "Moving/Feeding", "Feeding/Moving")[ rank(-averagetable$Standing) ]
merge(tableresults, averagetable[,c(1,3)], by.x="winning_cluster", by.y="Group.1")
#   winning_cluster ACTIVITY_X ACTIVITY_Y ACTIVITY_Z              x
# 1        cluster2         18          5         19 Moving/Feeding
# 2        cluster3         19         21         28       Standing
# 3        cluster3         20         14         24       Standing
# 4        cluster3         34         35         49       Standing
# 5        cluster3         23         27         35       Standing
# 6        cluster3         33         20         39       Standing

根据另一个数据框中的值替换数据框中的行元素

2 个答案: