R - 为什么在搜索另一个数据帧中的值时,会在此数据框中返回列表?

时间:2016-04-11 13:34:26

标签: r dataframe sapply

我有以下两个data.frames:

DF1

structure(list(thread_id = c(1L, 1L, 2L, 2L, 2L, 2L), course_week = c(1, 
1, 1, 1, 1, 1), user_id = c(1237305, 3001241, 1237305, 1237305, 
4455134, 4398594), post_id_unique = c("1-NA", "1-post-1", "2-NA", 
"2-post-2", "2-post-2", "2-post-2"), to = list(NULL, 1L, NULL, 
    2L, 2L, 2L)), .Names = c("thread_id", "course_week", "user_id", 
"post_id_unique", "to"), row.names = c(NA, 6L), class = "data.frame")

DF2

structure(list(thread_id = c(1L, 1L, 2L, 2L, 2L, 2L), course_week = c(1, 
1, 1, 1, 1, 1), user_id = c(1237305, 3001241, 1237305, 1237305, 
4455134, 4398594), post_id_unique = c("1-post-1", "1-post-1125", 
"2-post-2", "2-post-3", "2-post-43", "2-post-54")), .Names = c("thread_id", 
"course_week", "user_id", "post_id_unique"), row.names = c(NA, 
6L), class = "data.frame")

我正在尝试将 df1 $替换为,并将 df2 $ user_id 中的值与两个文件中的 $ post_id_unique 列相匹配。

我为它制作了以下代码:

from <- as.list(df1$post_id_unique)
replace <- function(i){if(grepl("NA",i)!=TRUE) {df2[df2$post_id_unique==i,1]}}
df1$to <- sapply(from, replace)

几乎完美无缺......除了 df1 $到中的每个值都是列表而不是数字或字符向量:

'data.frame':   6 obs. of  5 variables:
 $ thread_id     : int  1 1 2 2 2 2
 $ course_week   : num  1 1 1 1 1 1
 $ user_id       : num  1237305 3001241 1237305 1237305 4455134 ...
 $ post_id_unique: chr  "1-NA" "1-post-1" "2-NA" "2-post-2" ...
 $ to            :List of 6
  ..$ : NULL
  ..$ : int 1
  ..$ : NULL
  ..$ : int 2
  ..$ : int 2
  ..$ : int 2

为什么我的原始代码在数据框架中创建列表?我如何取消他们的名单?或者避免它们开始。

我知道这与merge()类似,但我有兴趣以学习和其他原因这样做。

1 个答案:

答案 0 :(得分:1)

“问题”是有时您的replace()函数不返回值(当i值包含“NA”时)。由于sapply始终返回与输入长度相同的对象,因此将为函数返回NULL值。 NULL不能放在一个简单的向量中,因此sapply的结果会转换为一个列表。您可以通过返回NA而不是任何内容

来解决此问题
replace <- function(i){if(grepl("NA",i)!=TRUE) {df2[df2$post_id_unique==i,1]} else {NA}}

但实际上看起来你正在做一个基本的左合并操作。基本语法是

merge(df1, df2, by="post_id_unique", all.x=T)