错误:`callback`必须有两个或多个参数 - readr

时间:2017-03-05 12:44:44

标签: r readr

我正在尝试通过R创建sqlite数据库(它看起来不是很方便,但它应该可以工作。)

我正在使用readr和dplyr包。由于我有庞大的数据集,我试图通过read_delim_chunked分割数据集,并调用我写的回调函数:

modifier<-function(chunk){
  result<-cbind(chunk %>% 
        filter(X1=="T") %>% 
        select(X2) %>% transmute(date=parse_date_time2(X2, orders = "%Y-%m-%d %H:%M:%S")),
      chunk %>% 
        filter(X1=="U") %>% 
        select(X2) %>% transmute(str_sub(X2, 20)), 
      chunk %>% 
        filter(X1=="W")%>% 
        select(X2))
  names(result)<-c("time", "user", "tweet")
  db_insert_into(con=my_db$con, table="my_fav_table", values=result)
}

但是,在调用read_delim_chunked:

read_delim_chunked(file="/datadrive/tweets2009-07.txt", 
                   chunk_size = 99999, 
                   callback = modifier, 
                   delim = "\t", 
                   escape_double = FALSE, 
                   col_names = FALSE, 
                   trim_ws = TRUE, 
                   skip = 1)

我收到了这个奇怪的错误:

  

错误:callback必须有两个或多个参数

传递给第二个参数的是什么,它需要在那里?

由于

1 个答案:

答案 0 :(得分:0)

回调默认为名为SideEffectChunkCallback的类。这个类包含一个名为receive的函数,每次读入一个块时都会调用它。这是函数定义(Git)

receive = function(data, index) {
  result <- private$callback(data, index)
  private$cancel <- identical(result, FALSE)
}

它被称为(Git)

 R6method(callback, "receive")(out, pos);

其中out是当前数据帧块,pos是当前块开始的文件中的行号。我不确定为什么他们将索引传回(它没有被使用)并强制你的回调函数为它提供一个参数。我刚刚在我的回调函数中添加了一个虚拟变量,它可以正常工作。

myCallBackFunction <- function(dfChunk, dummyVar){