将大型数据集导入Cloud Datalab

时间:2016-01-11 11:14:57

标签: google-cloud-datalab

是否可以将大型数据集放入pandas DataFrame?

我的数据集是约。 1.5 Gb未压缩(用于群集的输入),但是当我尝试使用bq.Query(...)选择表的内容时,它会引发异常:

RequestException: Response too large to return. Consider setting allowLargeResults to true in your job configuration. For more information, see https://cloud.google.com/bigquery/troubleshooting-errors

查看https://cloud.google.com/bigquery/querying-data?hl=en哪些州,

  

您必须指定目的地表。

感觉就像发送大型查询的唯一地方是另一个表(然后单击导出到GCS并下载)。

当分类的行被写回数据库时,也会有一个(可能是大写回写)。

同样的数据集在我的16Gb笔记本电脑上运行良好(几分钟)但我正在寻找迁移到Datalab,因为我们的数据移动到云端。

非常感谢,任何帮助表示赞赏

1 个答案:

答案 0 :(得分:1)

如果您已在表格中获得结果,则可以使用Table.to_dataframe()

否则,您将需要使用execute()运行查询,其中指定了目标表名,并且allow_large_results = True参数(之后您可以执行上述to_dataframe()调用)。

请注意,您可能遇到此问题;运行Python内核的默认VM非常基本。您可以使用URL参数部署功能更强大的VM; e.g:

与此同时,如上所述,您可以通过某些URL参数将Datalab部署到更大的VM。例如:

http://datalab.cloud.google.com?cpu=2&memorygb=16