从大型数据集中提取一定百分比的样本进行分析

时间:2019-07-02 06:33:18

标签: python-3.x large-data netcdf4

我在NetCDF文件中有一个非常大的数据集。

RZSC = xr.open_dataset('/home/chandra/data/RZSC_250m_SA.nc')
RZSC = RZSC.Band1
RZSC
[Output]:
<xarray.DataArray 'Band1' (lat: 32093, lon: 20818)>
[668112074 values with dtype=float32]
Coordinates:
  * lat      (lat) float64 -58.36 -58.36 -58.35 -58.35 ... 13.71 13.71 13.71
  * lon      (lon) float64 -81.38 -81.37 -81.37 -81.37 ... -34.63 -34.63 -34.62
Attributes:
    long_name:     GDAL Band Number 1
    grid_mapping:  crs

我想提取一定百分比的样本(例如占总数据集的5%)作为整个数据集的代表。我仍然想保留样本的坐标(纬度和经度),因此我可以根据分析范围从其他数据集中提取值。有人有什么方法/建议这样做吗?

目前,我什至无法可视化数据集或对此进行任何分析。 我无法共享数据,因为netcdf文件的大小大于6 GB。

0 个答案:

没有答案