使用bigrquery下载Bigish Datasets - 最佳实践?

时间:2017-01-26 16:59:48

标签: r google-bigquery

我正在尝试使用R包装器将一个大约250k行和500个cols的表从bigquery下载到R中,以便在h2o中建立一些模型。从BQ下载时大约1.1gb。

然而,它运行了很长时间然后失去了连接所以永远不会使它成为R(我现在正在重新运行,所以我可以得到一个更精确的错误示例)。

我只是想知道使用bigrquery做这件事似乎是一项合理的任务,或者主要是将较小的数据集从BigQuery拉入R中。

只是想知道是否有人有任何可能有用的提示和技巧 - 我正在浏览库代码以试图弄清楚它是如何做的(将会看看是否是在本地共享文件或甚至是某些东西的选项)。但不完全确定我甚至不知道我在看什么。

更新

我已快速修复使用cli来本地下载数据

bq extract blahblah gs://blah/blahblah_*.csv

gsutil cp gs://blah/blahblah_*.csv /blah/data/

然后阅读数据只需使用:

# get file names in case shareded accross multiple files
file_names <- paste(sep='','/blah/data/',list.files(path='/blah/data/',pattern=paste(sep='',my_lob,'_model_data_final')))

# read each file
df <- do.call(rbind,lapply(file_names,read.csv))

实际上这是一个很多更快 - 250k没问题。

我确实发现BigQuery可以更好地集成到更广泛的工具生态系统中。喜欢R + Dataflow的例子,defo会更多地研究一下。

0 个答案:

没有答案