相当于SAS格式(在R中)

时间:2015-03-09 17:28:11

标签: r merge lookup

假设我有一个数据帧:

    sick <- c("daa12", "daa13", "daa14", "daa15", "daa16", "daa17")
    code <- c("heart", "heart", "lung", "lung", "cancer", "cancer")
    sick_code <- data.frame(sick, code)  

另一个:

    pid <- abs(round(rnorm(6)*1000,0))
    sick <- c("-" , "-", "-", "-", "daa16", "SO")
    p_sick <- data.frame(pid, sick)

现在我想为p_sick添加一个新的varialbe,将“p_sick $ sick”转换为sick_code $ code。 p_sick $ sick中的变量是一个字符串,可能是也可能不是p_sick $ sick,在这种情况下应返回NA。

现在我可以使用简单的ifelse语句编写for循环。但我拥有的数据是1.5亿行,翻译表长达15.000。

我已经用Google搜索了这是SaS中“proc格式”的等价物(但是我没有访问SaS,也不知道它是如何工作的。)

也许plyr或apply函数中有一些合并变体?

编辑:我已经接受了两个答案,因为他们的工作。 我将尝试研究两者之间的差异(速度)。由于merge是一个内置函数,我猜它会进行大量的检查。

EDIT2:谷歌来到这里的人; merge has和sort = FALSE会加快速度。请注意,订单不会以任何方式保留。

3 个答案:

答案 0 :(得分:2)

data.table将适用于您的示例:

   library(data.table)
   setkey(setDT(p_sick),sick)
   p_sick[setDT(sick_code),code := i.code][]
        pid  sick   code
    1: 3137     -     NA
    2:  755     -     NA
    3: 1327     -     NA
    4:  929     -     NA
    5:  939 daa16 cancer
    6:  906    SO     NA

有关详细说明,请参阅here

答案 1 :(得分:1)

您可以将mergeall.x = TRUE一起使用(以保持p_sick中的sick_code不匹配的值:

merge(p_sick, sick_code, all.x = TRUE)

等效的是使用来自dplyr的left_join

library(dplyr)
left_join(p_sick, sick_code)
#    pid  sick   code
# 1  212     -   <NA>
# 2 2366     -   <NA>
# 3  325     -   <NA>
# 4  269     -   <NA>
# 5  501 daa16 cancer
# 6 1352    SO   <NA>

请注意,这些解决方案中的每一个都只能在两个数据帧之间共享名称sick。假设他们有不同的名称 - 比如sickness中的列被称为sick_code。您可以分别使用以下内容:

merge(p_sick, sick_code, by.x = "sick", by.y = "sickness", all.x = TRUE)
# or
left_join(p_sick, sick_code, c(sick = "sickness"))

答案 2 :(得分:0)

一个简单的命名向量也将起作用。命名向量可以充当查找。因此,与其将病态和代码定义为数据帧,不如将其定义为命名向量并将其用作解码。像这样:

# Set up named vector
sick_decode <- c("heart", "heart", "lung", "lung", "cancer", "cancer")
names(sick_decode) <- c("daa12", "daa13", "daa14", "daa15", "daa16", "daa17")

# Prepare data  
pid <- abs(round(rnorm(6)*1000,0))
sick <- c("-" , "-", "-", "-", "daa16", "SO")
p_sick <- data.frame(pid, sick)
  
# Create new variable using decode
p_sick$sick_decode <- sick_decode[p_sick$sick]

# Results
#>    pid  sick sick_decode
#> 1  511     -        <NA>
#> 2 1619     -        <NA>
#> 3  394     -        <NA>
#> 4  641     -        <NA>
#> 5   53 daa16      cancer
#> 6  244    SO        <NA>

我怀疑这种方法也会很快,但尚未对其进行基准测试。

此外,现在有一个R包专门用于在R中复制SAS格式功能。它称为fmtr