我正在尝试使用Google BigQuery在Google Datalab中查询大型数据集(c 1M行,5.7GB)。 该查询运行了很长时间,最终似乎已执行。 当尝试将结果放入pandas表中时,代码将永远运行。
我尝试使用具有更大内存的VM(而不是n1-standard-1,我尝试使用n1-standard-2)。 当我将LIMIT 100放入时,代码会执行,但这不好,因为我需要将数据聚合到一个时间序列中。
https://yourDomainName.000webhostapp.com/yourJsonFileName
最终,我需要回到2015年并建立一个时间序列-这意味着我将需要能够处理至少一个非常大的查询以聚合数据集。
是否可以在Google Datalab中处理非常大的数据集?为此应使用哪种设置-即是否有特定的VM可以做到这一点? 请注意,我需要实现几TB大的查询。能够在Jupyter笔记本环境中聚合数据,然后将其保存在适当的位置,将非常有用。 非常感谢!