我在R工作。我有许多不同的数据框,其中包含样本名称,我正在尝试根据样本名称为每个数据框中的每一行指定一种颜色。有许多行具有相同的样本名称,但我有混乱的输出数据,所以我不能按样本名称排序。这是我所拥有的一个小例子
names <- c( "TC3", "102", "172", "136", "142", "143", "AC2G" )
colors <- c( "darkorange", "forestgreen", "darkolivegreen", "darkgreen", "darksalmon", "firebrick3", "firebrick1" )
dataA <- c( "JR13-101A", "TC3B", "JR12-136C", "AC2GA", "TC3A" )
newcolors <- rep( NA, length( dataA ) )
dataA <- as.data.frame( cbind( dataA, newcolors ) )
我尝试了以下(我知道,有循环,但这就是我能想到的)。我也试图摆脱R中的循环,但我还没有打破习惯
这是我尝试过的。可能是显而易见的事情,但我只是为所有NA
newcolors
for( i in 1:nrow( dataA ) ) {
for( j in 1:length( names ) ) {
if( grepl( dataA$dataA[ i ], names[ j ] ) ) {
dataA$newcolors[ i ] <- colors[ j ]
}
}
}
答案 0 :(得分:1)
这是一个解决方案,它消除了1个循环:
dataA$newcolors<-as.character(dataA$newcolors)
for( j in 1:length( names ) ) {
dataA$newcolors[grep(names[j], dataA$dataA)] <- colors[j]
}
将newcolors列转换为character而不是factor会使更新变得更加容易。如果名称的数量很短,那么单循环应该不会对性能产生太大影响。