我有以下两个data.frames:
DF1
structure(list(thread_id = c(1L, 1L, 2L, 2L, 2L, 2L), course_week = c(1,
1, 1, 1, 1, 1), user_id = c(1237305, 3001241, 1237305, 1237305,
4455134, 4398594), post_id_unique = c("1-NA", "1-post-1", "2-NA",
"2-post-2", "2-post-2", "2-post-2"), to = list(NULL, 1L, NULL,
2L, 2L, 2L)), .Names = c("thread_id", "course_week", "user_id",
"post_id_unique", "to"), row.names = c(NA, 6L), class = "data.frame")
DF2
structure(list(thread_id = c(1L, 1L, 2L, 2L, 2L, 2L), course_week = c(1,
1, 1, 1, 1, 1), user_id = c(1237305, 3001241, 1237305, 1237305,
4455134, 4398594), post_id_unique = c("1-post-1", "1-post-1125",
"2-post-2", "2-post-3", "2-post-43", "2-post-54")), .Names = c("thread_id",
"course_week", "user_id", "post_id_unique"), row.names = c(NA,
6L), class = "data.frame")
我正在尝试将 df1 $替换为,并将 df2 $ user_id 中的值与两个文件中的 $ post_id_unique 列相匹配。
我为它制作了以下代码:
from <- as.list(df1$post_id_unique)
replace <- function(i){if(grepl("NA",i)!=TRUE) {df2[df2$post_id_unique==i,1]}}
df1$to <- sapply(from, replace)
几乎完美无缺......除了 df1 $到中的每个值都是列表而不是数字或字符向量:
'data.frame': 6 obs. of 5 variables:
$ thread_id : int 1 1 2 2 2 2
$ course_week : num 1 1 1 1 1 1
$ user_id : num 1237305 3001241 1237305 1237305 4455134 ...
$ post_id_unique: chr "1-NA" "1-post-1" "2-NA" "2-post-2" ...
$ to :List of 6
..$ : NULL
..$ : int 1
..$ : NULL
..$ : int 2
..$ : int 2
..$ : int 2
为什么我的原始代码在数据框架中创建列表?我如何取消他们的名单?或者避免它们开始。
我知道这与merge()类似,但我有兴趣以学习和其他原因这样做。
答案 0 :(得分:1)
“问题”是有时您的replace()
函数不返回值(当i
值包含“NA”时)。由于sapply
始终返回与输入长度相同的对象,因此将为函数返回NULL值。 NULL不能放在一个简单的向量中,因此sapply的结果会转换为一个列表。您可以通过返回NA而不是任何内容
replace <- function(i){if(grepl("NA",i)!=TRUE) {df2[df2$post_id_unique==i,1]} else {NA}}
但实际上看起来你正在做一个基本的左合并操作。基本语法是
merge(df1, df2, by="post_id_unique", all.x=T)