以下函数用于为以下数据集创建路径概述:
tc <- textConnection('
path touchpoint time
abc A 1
abc A 2
abc B 3
abc C 4
def A 2
def B 3
def D 4
def C 5
def D 6
ghi A 1
ghi A 2
ghi A 3
ghi C 4
jkl A 5
jkl A 6
jkl B 7
jkl C 8
mno B 1
mno A 2
mno A 3
mno C 4
pqr A 1
pqr C 2
')
paths <- read.table(tc, header=TRUE)
-
library(plyr)
foo <- function(x){
r <- rle(as.character(x))
short <- paste0(r$values, collapse="_")
long <- paste0(r$values, "(", r$lengths, ")", collapse="_")
data.frame(short, long)
}
ddply(paths, .(path), function(x)foo(x$touchpoint))
path short long
1 abc A_B_C A(2)_B(1)_C(1)
2 def A_B_D_C_D A(1)_B(1)_D(1)_C(1)_D(1)
3 ghi A_C A(3)_C(1)
4 jkl A_B_C A(2)_B(1)_C(1)
5 mno B_A_C B(1)_A(2)_C(1)
6 pqr A_C A(1)_C(1)
因此,此功能创建两种形式的路径&#39;:
由于某些路径的接触点数量可能非常大,我希望合并以下约束:仅从n
和short
中选择long
最新值。由于路径是从rle()
对象构造的,我的问题是:
如何从rle()对象中获取N
值及其相应的长度?由于路径从最近的接触点保存到最近的接触点,因此需要选择最后的N
值和相应的长度。 rle()
文档未提供此问题的解决方案。
如果N=2
将是:
path short long
1 abc B_C B(1)_C(1)
2 def C_D C(1)_D(1)
3 ghi A_C A(3)_C(1)
4 jkl B_C B(1)_C(1)
5 mno A_C A(2)_C(1)
6 pqr A_C A(1)_C(1)
答案 0 :(得分:6)
仅采用r$values
和r$lengths
中的最后N个值:
foo <- function(x,N){
r <- rle(as.character(x))
lastN<-max(1,(length(r$lengths) - N + 1)):length(r$lengths)
short <- paste0(r$values[lastN], collapse="_")
long <- paste0(r$values[lastN], "(", r$lengths[lastN], ")", collapse="_")
data.frame(short, long)
}
ddply(paths, .(path), function(x) foo(x$touchpoint,N=2))
path short long
1 abc B_C B(1)_C(1)
2 def C_D C(1)_D(1)
3 ghi A_C A(3)_C(1)
4 jkl B_C B(1)_C(1)
5 mno A_C A(2)_C(1)
6 pqr A_C A(1)_C(1)
ddply(paths, .(path), function(x) foo(x$touchpoint,N=4))
path short long
1 abc A_B_C A(2)_B(1)_C(1)
2 def B_D_C_D B(1)_D(1)_C(1)_D(1)
3 ghi A_C A(3)_C(1)
4 jkl A_B_C A(2)_B(1)_C(1)
5 mno B_A_C B(1)_A(2)_C(1)
6 pqr A_C A(1)_C(1)
编辑:编辑该函数以获取最后N个值,而不是第一个。