如何使用(data.frame)查找表中的值标签替换数据框中的数字代码?

时间:2012-04-15 00:37:58

标签: r replace variable-assignment dataframe rename

这是this question的后续问题,最初受this question启发,但不完全相同。

这是我的情况。首先,我从数据库中提取一些数据,

df <- data.frame(id = c(1:6),
                 profession = c(1, 5, 4, NA, 0, 5))
   df
#  id profession
#  1          1
#  2          5
#  3          4
#  4         NA
#  5          0
#  6          5

其次,我提供了一个关键字表,其中包含有关行业代码的人类可读信息,

profession.codes <- data.frame(profession.code = c(1,2,3,4,5),
                               profession.label = c('Optometrists',
                               'Accountants', 'Veterinarians', 
                               'Financial analysts',  'Nurses'))                 
   profession.codes
#  profession.code   profession.label
#               1       Optometrists
#               2        Accountants
#               3      Veterinarians
#               4 Financial analysts
#               5             Nurses

现在,我想使用profession中的标签覆盖df中的profession.codes变量,最好使用join包中的plyr,但我对任何智能解决方案持开放态度。虽然我喜欢那个ply保留x的顺序。

我目前这样做,

# install.packages('plyr', dependencies = TRUE)
library(plyr)

profession.codes$profession <- profession.codes$profession.code
df <- join(df, profession.codes, by="profession")
# levels(df$profession.label)
df$profession.label <- factor(df$profession.label, 
   levels = c(levels(df$profession.label), 
   setdiff(df$profession, df$profession.code)))
# levels(df$profession.label)
df$profession.label[df$profession==0 ] <- 0
df$profession.code <- NULL
df$profession  <- NULL
names(df) <- c("id", "profession")
df
#  id         profession
#  1       Optometrists
#  2             Nurses
#  3 Financial analysts
#  4               <NA>
#  5                  0
#  6             Nurses

这就是我在不丢失professionNA的情况下覆盖0的方法。

问题是0可能是17或任何数字,我想以某种方式解释这个问题。此外,如果可能的话,我还想缩短我的代码。

非常感谢任何帮助。

谢谢, 埃里克

1 个答案:

答案 0 :(得分:6)

这是基础中的一种方法:

df <- data.frame(id = c(1:6),
                 profession = c(1, 5, 4, NA, 0, 5))

pc <- data.frame(profession.code = c(1,2,3,4,5),
                               profession.label = c('Optometrists',
                               'Accountants', 'Veterinarians', 
                               'Financial analysts',  'Nurses'))  


df$new <- as.character(pc[match(df$profession,  
    pc$profession.code), 'profession.label'])
df[is.na(df$new), 'new'] <- df[is.na(df$new), 'profession'] 
df$new <- as.factor(df$new)
df

哪个收益率:

  id profession                new
1  1          1       Optometrists
2  2          5             Nurses
3  3          4 Financial analysts
4  4         NA               <NA>
5  5          0                  0
6  6          5             Nurses