元数据处理代码永远需要在Jupyter Notebook中运行

时间:2019-07-02 16:24:55

标签: python pandas metadata python-xarray

Jupyter笔记本电脑要花2天时间(例如...多天)才能运行一个单元。我正在使用xarray和pandas处理netCDF4元数据。我的代码,数据量(80000+)或笔记本电脑是否有问题?

我已经在数据集中排除了不需要的变量,但这并没有使它变快,更新我的代码使用的所有库也不起作用。我正在通过macOS Mojave的MacBook上的12英寸MacBook上的conda在jupyter笔记本上运行所有这些程序。

这是需要几天运行的代码。我笔记本中的其他所有内容均能及时运行:

#resample to make time = 1 hr increments  
dshr=ds.resample(time='1h', skipna=True, label='left').mean()
dshr

我也尝试使用groupby来做到这一点:

df = df.set_index('datetime').groupby(pd.Grouper(freq='60S')).first()

但这似乎要花同样的时间。

笔记本仅运行了几个小时,单元格旁边的[*]结束了。我知道它是可行的,因为当我仅对一个变量进行重采样时,它会在大约45分钟内运行,并且得到预期的结果。

0 个答案:

没有答案