我正在对PostgreSQL数据库中存储的大量数据进行一些分析。出于速度和内存的原因,我使用data.table
包。目前我这样做是为了阅读数据。
library(RPostgreSQL)
library(data.table)
...
query <- "SELECT * FROM eqtl"
data <- as.data.table(dbGetQuery(con, query))
我想知道是否有更好的方法可以将整个内容读入data.frame
,然后将其复制到data.table
。
答案 0 :(得分:2)
正如Arun在评论中指出的那样,您可以在setDT
结果上使用dbGetQuery
。
此外,我的包dwtools中还提供了一个辅助功能,可在需要时为自动setkey
扩展此功能。这被设计为在链接时很有用。它还将接口统一到其他数据库供应商,以便您可以使用不同的数据库链接data.table
简单的选择用法如下:
my_dt = db("SELECT * FROM eqtl")
# to setkey use
db("SELECT * FROM eqtl", key="mykeycol")
包装手册中的大量扩展示例:
jj_aggr = quote(list(amount=sum(amount), value=sum(value)))
r <- db("sales",key="geog_code" # read fact table from db
)[,eval(jj_aggr),keyby=c("geog_code","time_code") # aggr by geog_code and time_code
][,db(.SD) # write to db, auto.table.name
][,db("geography",key="geog_code" # read lookup geography dim from db
)[.SD # left join geography
][,eval(jj_aggr), keyby=c("time_code","geog_region_name")] # aggr
][,db(.SD) # write to db, auto.table.name
][,db("time",key="time_code" # read lookup time dim from db
)[.SD # left join time
][, eval(jj_aggr), keyby=c("geog_region_name","time_month_code","time_month_name")] # aggr
][,db(.SD) # write to db, auto.table.name
]
它将从多个数据库,连接,聚合中读取数据,将中间结果保存到多个数据库。