Question

给定具有以下结构的数据集：

time  var1  var2  var2  var1  var3
      loc1  loc1  loc2  loc2  loc1
1     11    12    13    14    15
2     21    22    23          25
3           32    33    34    35

作为.csv：

给出

time,var1,var2,var2,var1,var3
,loc1,loc1,loc2,loc2,loc1
1,11,12,13,14,15
2,21,22,23,,25
3,,32,33,34,35

注意：缺少某些值，并非所有变量都可用于所有位置，时间戳可用于每个记录，列可能不按顺序出现，但时间戳可靠地是第一列。我不确定所有这些方面是否与最佳解决方案相关，但它们都存在。

我没有太多麻烦设置一个xarray三维数组，允许我按时间戳，位置，变量名访问值。在确定唯一的位置名称之后循环遍历位置名称，按位置过滤数据并一次将结果添加到一个位置。但我想知道什么是pythonic，而且由于缺乏一个更好的词，pandastic解决方案会是什么样子？

问题：是否有一些紧凑而有效的方法，可能使用pandas和xarray，将.csv中的数据集或任何类似的数据集（具有不同的变量和位置名称）加载到像xarray DataArray这样的3d数组中？

Answer 1

df = pd.read_csv('tst.csv', header=[0, 1], index_col=0).sort_index(1)

time  var1       var2      var3
      loc1  loc2 loc1 loc2 loc1
1     11.0  14.0   12   13   15
2     21.0   NaN   22   23   25
3      NaN  34.0   32   33   35

但是，为了进入三维阵列，我们必须将其投影到我们可用的轴的笛卡尔积中。

cols = pd.MultiIndex.from_product(df.columns.levels)

d1 = df.reindex(columns=cols)
d1

   var1       var2      var3     
   loc1  loc2 loc1 loc2 loc1 loc2
1  11.0  14.0   12   13   15  NaN
2  21.0   NaN   22   23   25  NaN
3   NaN  34.0   32   33   35  NaN

然后使用numpy.reshape和numpy.transpose

d1.values.reshape(3, 3, 2).transpose(1, 0, 2)

array([[[ 11.,  14.],
        [ 21.,  NaN],
        [ NaN,  34.]],

       [[ 12.,  13.],
        [ 22.,  23.],
        [ 32.,  33.]],

       [[ 15.,  NaN],
        [ 25.,  NaN],
        [ 35.,  NaN]]])

如何将带有复合头的.csv读入xarray DataArray（使用pandas）

1 个答案: