我目前正在使用6 GB的csv文件,以便从Google Cloud Platform中的数据中提取一些见解。我曾经使用Cloud Datalab进行该工作,因为我发现它是可视化数据的好工具。当我尝试将所有信息加载到数据框中时,就会出现问题。当我在VM中运行Datalab时,我假设性能取决于该VM的功能。当前,每次尝试在数据帧中加载寄存器时都会收到超时(即使尝试使用4 CPU和15GB RAM的VM)。 对于GCP中的大型数据集,是否有任何标准程序来清理和可视化数据(如果可能,使用数据框)?也许我只是选择了错误的选项。
任何帮助将不胜感激。
答案 0 :(得分:1)
作为更新,我找到了一种方法,可以将csv文件加载到具有其他库而不是熊猫的数据库中(称为“ Dask”:[link](dask.pydata.org/en/latest))。实际上,我能够很快进行一些基本操作。无论如何,我认为处理超大文件的解决方案是使用足够具有代表性的示例数据。