我在NetCDF文件中有一个非常大的数据集。
RZSC = xr.open_dataset('/home/chandra/data/RZSC_250m_SA.nc')
RZSC = RZSC.Band1
RZSC
[Output]:
<xarray.DataArray 'Band1' (lat: 32093, lon: 20818)>
[668112074 values with dtype=float32]
Coordinates:
* lat (lat) float64 -58.36 -58.36 -58.35 -58.35 ... 13.71 13.71 13.71
* lon (lon) float64 -81.38 -81.37 -81.37 -81.37 ... -34.63 -34.63 -34.62
Attributes:
long_name: GDAL Band Number 1
grid_mapping: crs
我想提取一定百分比的样本(例如占总数据集的5%)作为整个数据集的代表。我仍然想保留样本的坐标(纬度和经度),因此我可以根据分析范围从其他数据集中提取值。有人有什么方法/建议这样做吗?
目前,我什至无法可视化数据集或对此进行任何分析。 我无法共享数据,因为netcdf文件的大小大于6 GB。