我正在使用" bigrquery"在Rstudio服务器上打包以从Google BigQuery检索数据。目标是查询30~180个表,每个表大约3.5GB。查询结果是一个大约7~40 GB的表,它将被转换为R中的数据帧,最后是R-shiny应用程序。
我想知道哪种方式会更快:
使用src_bigquery()+ dplyr函数,并收集最后想要的数据
使用query_exec()获取"原始数据"首先,然后通过dplyr进行所有数据操作
现在我正在尝试方法2,但我发现即使查询本身也只需要大约30秒才能运行,但检索查询结果需要10分钟以上。
有什么建议可以加快这个过程吗?或者有关方法1和方法2之间比较的任何建议?