如何用R DBI的dbWriteTable()将二进制数据写入SQLite?

时间:2013-12-12 15:49:10

标签: database r sqlite binary r-dbi

例如,如何执行等效的后续SQL(插入BINARY(16)字段)

INSERT INTO Table1 (MD5) VALUES (X'6717f2823d3202449201145073ab871A'),(X'6717f2823d3202449301145073ab371A')

使用dbWriteTable()?做

dbWriteTable(db, "Table1", data.frame(MD5 = "X'6717f2823d3202449201145073ab871A'", ...), append = T, row.names = F)

似乎不起作用 - 它将值写为文本。

最后,我将有一个我想写的哈希的大数据框架,非常适合使用dbWriteTable。但我无法弄清楚如何将INSERT data.frame转换为二进制数据库字段。

1 个答案:

答案 0 :(得分:2)

所以这里有两种似乎有用的可能性。第一个在循环中使用dbSendQuery(...)(你可能已经想到了这个......)。

db.WriteTable = function(con,table,df) {  # no error checking whatsoever...
  require(DBI)
  field <- colnames(df)[1] 
  for (i in 1:nrow(df)) {
    query <- sprintf("INSERT INTO %s (%s) VALUES (X'%s')",table,field,df[i,1])
    rs    <- dbSendQuery(con,statement=query)
  }
  return(nrow(df))
}

library(DBI)
drv <- dbDriver("SQLite")
con <- dbConnect(drv)
rs  <- dbSendQuery(con, statement="CREATE TABLE hash (MD5 BLOB)")

df  <- data.frame(MD5=c("6717f2823d3202449201145073ab871A",
                        "6717f2823d3202449301145073ab371A"))

rs       <- db.WriteTable(con,"hash",df)
result.1 <- dbReadTable(con,"hash")
result.1
#                                                              MD5
# 1 67, 17, f2, 82, 3d, 32, 02, 44, 92, 01, 14, 50, 73, ab, 87, 1a
# 2 67, 17, f2, 82, 3d, 32, 02, 44, 93, 01, 14, 50, 73, ab, 37, 1a

如果您的哈希数据框非常大,那么df.WriteFast(...)db.WriteTable(...)的功能相同,只是它应该更快。

db.WriteFast = function(con.table,df) {
  require(DBI)
  field <- colnames(df)[1]
  lapply(unlist(df[,1]),function(x){
         dbSendQuery(con,
                     statement=sprintf("INSERT INTO %s (%s) VALUES (X'%s')",
                                        table,field,x))})
}

请注意result.1是一个数据框,如果我们在调用dbWriteTable(...)时使用它,我们就可以成功地将散列写入BLOB。所以有可能。

str(result.1)
# 'data.frame': 2 obs. of  1 variable:
#  $ MD5:List of 2
#   ..$ : raw  67 17 f2 82 ...
#   ..$ : raw  67 17 f2 82 ...

第二种方法利用R的raw数据类型来创建类似result.1的数据框,并将其传递给dbWriteTable(...)。你认为这很容易,但没有。

h2r = function(x) {
  bytes <- substring(x, seq(1, nchar(x)-1, 2), seq(2, nchar(x), 2))
  return(list(as.raw(as.hexmode(bytes))))
}
hash2raw = Vectorize(h2r)

df.raw=data.frame(MD5=list(1:nrow(df)))
colnames(df.raw)="MD5"
df.raw$MD5 = unname(hash2raw(as.character(df$MD5)))
dbWriteTable(con, "newHash",df.raw)
result.2 <- dbReadTable(con,"newHash")
result.2

all.equal(result.1$MD5,result.2$MD5)
# [1] TRUE

在这种方法中,我们创建了一个数据框df.raw,它有一列MD5,其中每个元素都是一个原始字节列表。效用函数h2r(...)采用哈希的字符表示,将其分解为char(2)(字节)的向量,然后将其中的每一个解释为十六进制(as.hexmode(...)),转换结果到raw(as.raw(...)),最后将结果作为列表返回。 Vectorize(...)是一个包装器,允许hash2raw(...)将矢量作为参数。

就个人而言,我认为你最好使用第一种方法:它利用SQLite的内部机制将十六进制写入BLOB,并且更容易理解。