对于“大”数据,最好使用sql连接还是导入csv文件

时间:2015-10-28 14:05:17

标签: sql-server r csv

所以我尝试使用dplyr连接数据库并对该数据执行命令。但是,该过程如果花费太长时间(> 10分钟)。在SQL Server中,大约需要2分钟,因此我可以将其导出为csv,然后将其导入R或Python。因此,作为一般规则,您是否建议使用R或Python的sql连接,或直接从sql数据库导出csv文件。

这是我正在使用的R代码:

library(dplyr)
aw <- RSQLServer::src_sqlserver("****", database = "****")

dept <- tbl(aw, sql("select work_dt, campaign, keyword, 
                     impressions, clicks, cost
                     from abidwise_detail
                     where work_dt between '2014-01-01' and '2014-05-01'")))

(dept <- tbl(aw, sql("select work_dt, campaign, keyword, 
                     sum(impressions) as impressions,
                     sum(clicks) as clicks,
                     sum(cost) as cost
                     from abidwise_detail
                     where work_dt between '2014-01-01' and '2014-02-01'
                     group by work_dt, campaign, keyword")))

rd <- dept %>% 
  filter(campaign == "ask")

# Bring the full data set back to R
dat <- collect(rd)

我该怎么办?这两个查询都需要很长时间。我应该只是作为csv文件导出,只是从目录中读取文件。

谢谢!

0 个答案:

没有答案