我想在数据框的变量中执行线性插值,其中考虑到:1)两点之间的时间差,2)获取数据的时刻和3)用于测量的个体变量。
例如,在下一个数据框中:
df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
Individuals=c(1,1,1,1,1,1,1,2,2,2),
Value=c(1, 2, 3, NA, 5, NA, 7, 5, NA, 7))
df
我想获得:
result <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
Individuals=c(1,1,1,1,1,1,1,2,2,2),
Value=c(1, 2, 3, 4, 5, 6, 7, 5, 5.5, 6))
result
我不能仅使用包na.approx
的函数zoo
,因为所有观察都不是连续的,一些观察属于一个人而其他观察属于其他观察。原因是因为如果第二个人第一次使用NA
并且我将仅使用函数na.approx
,我会使用来自individual==1
的信息来插入{{1} } NA
(例如,下一个数据框将有sucherror)
individual==2
我尝试使用套餐 df_2 <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
Individuals=c(1,1,1,1,1,1,1,2,2,2),
Value=c(1, 2, 3, NA, 5, NA, 7, NA, 5, 7))
df_2
和zoo
:
dplyr
但我无法在library(dplyr)
library(zoo)
proof <- df %>%
group_by(Individuals) %>%
na.approx(df$Value)
对象中执行group_by
。
您知道如何按组在一个变量中插入zoo
值吗?
提前致谢,
答案 0 :(得分:3)
使用data.frame
而不是cbind
来创建数据。 cbind
会返回一个矩阵,但您需要dplyr
的数据框。然后在na.approx
内使用mutate
。我已经注释了group_by
,因为您还没有在数据中提供分组变量,但是一旦您将分组变量添加到数据框中,该方法就可以正常工作。
df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
Individuals=c(1,1,1,1,1,1,1,2,2,2),
Value=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10))
library(dplyr)
library(zoo)
df %>%
group_by(Individuals) %>%
mutate(ValueInterp = na.approx(Value, na.rm=FALSE))
time Individuals Value ValueInterp 1 1 1 NA NA 2 2 1 2 2 3 3 1 3 3 4 4 1 NA 4 5 5 1 5 5 6 6 1 NA 6 7 7 1 7 7 8 1 2 8 8 9 2 2 NA 9 10 3 2 10 10
更新:要插入多个列,我们可以使用mutate_at
。这是一个有两个值列的示例。我们使用mutate_at
在列名称中包含na.approx
的所有列上运行"Value"
。 list(interp=na.approx)
告诉mutate_at
生成新的列名,方法是运行na.approx
并添加interp
作为后缀以生成新的列名:
df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
Individuals=c(1,1,1,1,1,1,1,2,2,2),
Value1=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10),
Value2=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10)*2)
df %>%
group_by(Individuals) %>%
mutate_at(vars(matches("Value")), list(interp=na.approx), na.rm=FALSE)
time Individuals Value1 Value2 Value1_interp Value2_interp <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 1 1 NA NA NA NA 2 2 1 2 4 2 4 3 3 1 3 6 3 6 4 4 1 NA NA 4 8 5 5 1 5 10 5 10 6 6 1 NA NA 6 12 7 7 1 7 14 7 14 8 1 2 8 16 8 16 9 2 2 NA NA 9 18 10 3 2 10 20 10 20
如果您不想保留原始的,未插入的列,则可以执行以下操作:
df %>%
group_by(Individuals) %>%
mutate_at(vars(matches("Value")), na.approx, na.rm=FALSE)
答案 1 :(得分:3)
我们可以使用begin= end= code=
while IFS= read -r; do
case $REPLY in
@*)
# we saw a marker; process all vars seen so far
[[ $begin && $end && $code ]] || continue # do nothing if we have no vars seen
sed -e "$end R $code" -e "$begin,$end d" -i "$file"
;;
'$TAGBEGIN='*) begin=${REPLY#'$TAGBEGIN='} ;;
'$TAGEND='*) end=${REPLY#'$TAGEND='} ;;
'$MYCODE='*) code=${REPLY#'$MYCODE='} ;;
esac
done <varSrc.txt
data.table