如何基于R中不同列中行上方/下方的行中的值创建列

时间:2012-02-23 19:08:23

标签: r

我一直在考虑这个问题并且无法提出解决方案。我在列X中有数据,我想用它来创建Z列中的数据。我希望Z为1,直到X中连续有两个0,然后全部为0。另外,在W列中,我希望从底部向上看Y时最终元素为1,Y连续包含两个0。希望有道理。我已经列出了Z列和W列,他们最终应该如何看待。我正在尝试使用索引,但是我很难弄清楚如何引用Z行的行之后的行X(因为Z的第1行中的值是基于值的) X)中的第2行和第3行。这些应该是两个独立的功能,一个用于查看开头,另一个用于查看结尾。它们将分别应用于每一行,因此列X将产生两列,如下所示Z,以及另一列,在这种情况下将是全0。谢谢你的帮助!

** * ** * 我更改了列名ABCD到XYZW以避免混淆。对不起,当我输入它的时候没有考虑到这一点!

** * ** * ** * 的* 我真的希望能够在没有函数或循环的情况下执行此操作,只需使用索引。我想我可以用一个函数搞清楚,但由于它是一个大型数据集,我希望它尽可能快。

code    X   Y   Z   W
A   1   0   1   0
A   1   0   1   0
A   0   0   1   0
A   1   0   1   0
A   1   0   1   0
A   1   0   1   0
A   1   0   1   0
A   0   0   1   0
A   1   0   1   0
A   0   0   0   0
A   0   0   0   0
A   1   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
B   0   0   0   0
B   0   0   0   0
B   0   0   0   0
B   0   0   0   0
B   1   1   0   0
B   0   0   0   0
B   1   0   0   0
B   0   0   0   0
B   1   0   0   0
B   0   0   0   0
B   0   0   0   0
B   1   0   0   0
B   0   1   0   0
B   0   0   0   0
B   0   0   0   0
B   0   1   0   1
B   0   1   0   1
B   0   1   0   1
B   0   0   0   1
B   0   1   0   1
B   0   1   0   1

以下与aggregate一起使用的函数应该给出我正在寻找的结果。感谢Tyler开始这项功能。我仍然觉得应该有一个更简单的方法来做到这一点,但现在应该这样做。感谢大家的投入!

我想我已经根据泰勒的代码弄明白了,只是做了一些改动。我将使用聚合应用此函数,它应该都可以解决。感谢所有的投入!

pat.finder <- function(var, value=0, fill1=1, fill2=0, rev=FALSE, seq=2){

 if(var[1]==0 & rev==FALSE){

 j<- rep(0,length(var))} else if(var[length(var)]==0 & rev == TRUE){

 j<- rep(0,length(var))} else{

 x <- if(rev) rle(rev(var)) else rle(var)
 n <- which(x[[1]]>(seq-1) & x[[2]]==value)[1]-1
 i <- sum(x[[1]][1:n])
 j <- if(rev){
            rev(c(rep(fill1, i), rep(fill2, length(var)-i)))
       } else {
            c(rep(fill1, i), rep(fill2, length(var)-i))
       }
}

 return(j)
} 

4 个答案:

答案 0 :(得分:1)

可能有一种更快的方法,但这就是我提出的方法:

dat <- read.table(text="code    A   B   C   D #read in your data
A   1   0   1   0
A   1   0   1   0
A   0   0   1   0
A   1   0   1   0
A   1   0   1   0
A   1   0   1   0
A   1   0   1   0
A   0   0   1   0
A   1   0   1   0
A   0   0   0   0
A   0   0   0   0
A   1   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
A   0   0   0   0
B   0   0   0   0
B   0   0   0   0
B   0   0   0   0
B   0   0   0   0
B   1   1   0   0
B   0   0   0   0
B   1   0   0   0
B   0   0   0   0
B   1   0   0   0
B   0   0   0   0
B   0   0   0   0
B   1   0   0   0
B   0   1   0   0
B   0   0   0   0
B   0   0   0   0
B   0   1   0   1
B   0   1   0   1
B   0   1   0   1
B   0   0   0   1
B   0   1   0   1
B   0   1   0   1", header=T)

现在代码:

A.rle <- rle(dat$A)
n <- which(A.rle[[1]]>1 & A.rle[[2]]==0)[1]-1
i <- sum(A.rle[[1]][1:n])
dat$C <- c(rep(1, i), rep(0, nrow(dat)-i))

B.rle <- rle(rev(dat$B))
n2 <- which(B.rle[[1]]>1 & B.rle[[2]]==0)[1]-1
i2 <- sum(B.rle[[1]][1:n2])
dat$D <- rev(c(rep(1, i2), rep(0, nrow(dat)-i2)))

编辑:我不完全明白你想要的是什么,所以我试图创建一个多功能的功能来满足你的需求。使用rev=TRUE查看结尾:

pat.finder <- function(var, value=0, fill1=1, fill2=0, rev=FALSE, seq=2){
    x <- if(rev) rle(rev(var)) else rle(var)
    n <- which(x[[1]]>(seq-1) & x[[2]]==value)[1]-1
    i <- sum(x[[1]][1:n])
    j <- if(rev){
               rev(c(rep(fill1, i), rep(fill2, length(var)-i)))
          } else {
               c(rep(fill1, i), rep(fill2, length(var)-i))
          }
    return(j)
}

#TRY IT OUT
pat.finder(dat$B, rev=TRUE)

transform(dat, C=pat.finder(A), D = pat.finder(B, rev=TRUE)) #what I think you want

transform(dat, C=pat.finder(A, fill1='foo', fill2='bar'), 
    D = pat.finder(A, rev=TRUE))

transform(dat, C=pat.finder(A, value=1), D = pat.finder(B, rev=TRUE))

答案 1 :(得分:1)

考虑sum(dat$A[i:(i+1)])。如果你连续有两个零,那就是零。使用循环(或lapply)或其中一个运行函数来查找返回零的最小“i”,并且您已经找到了将C列“从”切换到零的位置。

但我真的不得不问:“你要解决的问题是什么?”我几乎可以保证,如果您告诉我们A列和B列中的数据来自何处,我们可以向您展示更直接的方法来识别您在C和D列中设置的断点。

PS:一旦为dat$C设置了解决方案,只需执行相同操作,但从“imax”向下循环到1以获取dat$D

答案 2 :(得分:1)

这可能适合您的需求(仅限A列)。如果您可以更准确地了解您正在寻找什么,那么董事会可以提供进一步的帮助。

## read in your data
df1 = read.table(text="code    A   B   C   D 
A   1   0   1   0
A   1   0   1   0
...
")

## create forward-lagged A column
require(taRifx)
df1$lagA = shift(df1$A,wrap=F,pad=T)

myfun1 = function(x,y) {
     BB = x + y
     BB = ifelse(BB > 0, 1, 0)
     BB
}

df1$A2 = apply(df1[,c(2,6)], 1, function(x,y) myfun1(x[1],x[2]))
tvec = rep(1,which(df1$A2 == 0)[1] -1)
bvec = vector(length = nrow(df1) - which(df1$A2 == 0)[1] + 1, mode="numeric")

## the column you are looking for:
df1$nA = c(tvec,bvec)

答案 3 :(得分:1)

假设问题中显示的数据框为DF。如果pmax的第i个和下一个元素为0,则结果x的第i个元素为0,否则结果的第i个元素为1。我们在末尾追加1,因为'x'的最后一个元素没有下一个元素。然后我们将其与0和cummin进行比较,然后移动此过程发现的前0。

two0 <- function(x) cummin(c(pmax(x[-1], x[-length(x)]), 1) != 0)
DF.out <- transform(DF, Z = two0(X), W = rev(two0(rev(Y))))

!=0得出two0 integer的结果。如果我们希望我们可以放弃它,在这种情况下结果将是numeric

编辑:澄清整数/数字方面。