R:按组

时间:2015-11-13 15:57:20

标签: r group-by dplyr zoo linear-interpolation

我想在数据框的变量中执行线性插值,其中考虑到:1)两点之间的时间差,2)获取数据的时刻和3)用于测量的个体变量。

例如,在下一个数据框中:

 df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
            Individuals=c(1,1,1,1,1,1,1,2,2,2),
            Value=c(1, 2, 3, NA, 5, NA, 7, 5, NA, 7))
  df

我想获得:

 result <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                Individuals=c(1,1,1,1,1,1,1,2,2,2),
                Value=c(1, 2, 3, 4, 5, 6, 7, 5, 5.5, 6))
 result

我不能仅使用包na.approx的函数zoo,因为所有观察都不是连续的,一些观察属于一个人而其他观察属于其他观察。原因是因为如果第二个人第一次使用NA并且我将仅使用函数na.approx,我会使用来自individual==1的信息来插入{{1} } NA(例如,下一个数据框将有sucherror)

individual==2

我尝试使用套餐 df_2 <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3), Individuals=c(1,1,1,1,1,1,1,2,2,2), Value=c(1, 2, 3, NA, 5, NA, 7, NA, 5, 7)) df_2 zoo

dplyr

但我无法在library(dplyr) library(zoo) proof <- df %>% group_by(Individuals) %>% na.approx(df$Value) 对象中执行group_by

您知道如何按组在一个变量中插入zoo值吗?

提前致谢,

2 个答案:

答案 0 :(得分:3)

使用data.frame而不是cbind来创建数据。 cbind会返回一个矩阵,但您需要dplyr的数据框。然后在na.approx内使用mutate。我已经注释了group_by,因为您还没有在数据中提供分组变量,但是一旦您将分组变量添加到数据框中,该方法就可以正常工作。

df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
            Individuals=c(1,1,1,1,1,1,1,2,2,2),
            Value=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10))

library(dplyr)
library(zoo)

df %>%
  group_by(Individuals) %>%
  mutate(ValueInterp = na.approx(Value, na.rm=FALSE))    
   time Individuals Value ValueInterp
1     1           1    NA          NA
2     2           1     2           2
3     3           1     3           3
4     4           1    NA           4
5     5           1     5           5
6     6           1    NA           6
7     7           1     7           7
8     1           2     8           8
9     2           2    NA           9
10    3           2    10          10

更新:要插入多个列,我们可以使用mutate_at。这是一个有两个值列的示例。我们使用mutate_at在列名称中包含na.approx的所有列上运行"Value"list(interp=na.approx)告诉mutate_at生成新的列名,方法是运行na.approx并添加interp作为后缀以生成新的列名:

df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                 Individuals=c(1,1,1,1,1,1,1,2,2,2),
                 Value1=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10),
                 Value2=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10)*2)

df %>%
  group_by(Individuals) %>%
  mutate_at(vars(matches("Value")), list(interp=na.approx), na.rm=FALSE)
    time Individuals Value1 Value2 Value1_interp Value2_interp
   <dbl>       <dbl>  <dbl>  <dbl>         <dbl>         <dbl>
 1     1           1     NA     NA            NA            NA
 2     2           1      2      4             2             4
 3     3           1      3      6             3             6
 4     4           1     NA     NA             4             8
 5     5           1      5     10             5            10
 6     6           1     NA     NA             6            12
 7     7           1      7     14             7            14
 8     1           2      8     16             8            16
 9     2           2     NA     NA             9            18
10     3           2     10     20            10            20

如果您不想保留原始的,未插入的列,则可以执行以下操作:

df %>%
  group_by(Individuals) %>%
  mutate_at(vars(matches("Value")), na.approx, na.rm=FALSE)

答案 1 :(得分:3)

我们可以使用begin= end= code= while IFS= read -r; do case $REPLY in @*) # we saw a marker; process all vars seen so far [[ $begin && $end && $code ]] || continue # do nothing if we have no vars seen sed -e "$end R $code" -e "$begin,$end d" -i "$file" ;; '$TAGBEGIN='*) begin=${REPLY#'$TAGBEGIN='} ;; '$TAGEND='*) end=${REPLY#'$TAGEND='} ;; '$MYCODE='*) code=${REPLY#'$MYCODE='} ;; esac done <varSrc.txt

data.table