我目前在BigQuery中有一个大小为100 + GB的表,我想要检索到R.我在R中使用list_tabledata()
包中的bigrquery
函数,但它需要一个大量的时间。
有人建议在R中处理这么多数据,以及如何提高性能?像任何包,工具一样?
答案 0 :(得分:1)
tabledata.list
不是从BigQuery中消耗大量表数据的好方法 - 正如您所指出的那样,它并不是非常高效。我不确定bigrquery是否支持表导出,但从大型BigQuery表中检索数据的最佳方法是使用导出作业。这会将数据转储到Google云端存储上的文件中,然后您可以将其下载到桌面。您可以在our documentation中找到有关导出表格的更多信息。
答案 1 :(得分:0)
另一种选择是:不要将大量数据带入代码 - 尝试将代码带入数据。在BQL中实现逻辑方面,这可能具有挑战性。 JS UDF可能有所帮助。这取决于 如果这不可行 - 我建议使用采样数据或重新访问您的模型