应用错误收集

在Datalab中使用大型数据集进行数据准备和描述

时间：2018-06-27 11:08:11

标签： dataframe google-cloud-platform google-cloud-datalab

我目前正在使用6 GB的csv文件，以便从Google Cloud Platform中的数据中提取一些见解。我曾经使用Cloud Datalab进行该工作，因为我发现它是可视化数据的好工具。当我尝试将所有信息加载到数据框中时，就会出现问题。当我在VM中运行Datalab时，我假设性能取决于该VM的功能。当前，每次尝试在数据帧中加载寄存器时都会收到超时（即使尝试使用4 CPU和15GB RAM的VM）。对于GCP中的大型数据集，是否有任何标准程序来清理和可视化数据（如果可能，使用数据框）？也许我只是选择了错误的选项。

任何帮助将不胜感激。

1 个答案:

答案 0 :(得分：1)

作为更新，我找到了一种方法，可以将csv文件加载到具有其他库而不是熊猫的数据库中（称为“ Dask”：[link]（dask.pydata.org/en/latest））。实际上，我能够很快进行一些基本操作。无论如何，我认为处理超大文件的解决方案是使用足够具有代表性的示例数据。