是否可以将大型数据集放入pandas DataFrame?
我的数据集是约。 1.5 Gb未压缩(用于群集的输入),但是当我尝试使用bq.Query(...)
选择表的内容时,它会引发异常:
RequestException: Response too large to return. Consider setting allowLargeResults to true in your job configuration. For more information, see https://cloud.google.com/bigquery/troubleshooting-errors
查看https://cloud.google.com/bigquery/querying-data?hl=en哪些州,
您必须指定目的地表。
感觉就像发送大型查询的唯一地方是另一个表(然后单击导出到GCS并下载)。
当分类的行被写回数据库时,也会有一个(可能是大写回写)。
同样的数据集在我的16Gb笔记本电脑上运行良好(几分钟)但我正在寻找迁移到Datalab,因为我们的数据移动到云端。
非常感谢,任何帮助表示赞赏
答案 0 :(得分:1)
如果您已在表格中获得结果,则可以使用Table.to_dataframe()
否则,您将需要使用execute()运行查询,其中指定了目标表名,并且allow_large_results = True参数(之后您可以执行上述to_dataframe()调用)。
请注意,您可能遇到此问题;运行Python内核的默认VM非常基本。您可以使用URL参数部署功能更强大的VM; e.g:
与此同时,如上所述,您可以通过某些URL参数将Datalab部署到更大的VM。例如:
http://datalab.cloud.google.com?cpu=2&memorygb=16