Question

我正在沿轴合并两个数据集（在我的例子中，sample_ID）。但是，即使第一个和第二个数据库的变量dtype为int64，数据库的float64也会从dtype转换为int64。我的第一个数据库（existing）如下所示：

<xarray.Dataset>
Dimensions:          (sample_ID: 3)
Coordinates:
  * sample_ID  (sample_ID) int64 0 1 2
Data variables:
    a                (sample_ID) float64 1.0 2.0 1.1
    b                (sample_ID) float64 5.0 6.0 5.1
    varsUpdate       (sample_ID) int64 0 0 1
    y                (sample_ID) float64 100.0 200.0 100.1
    x                (sample_ID) float64 10.0 20.0 10.1
    trajID           (sample_ID) int64 1 2 1

第二个数据库（new）如下所示：

<xarray.Dataset>
Dimensions:          (sample_ID: 1)
Coordinates:
  * sample_ID  (sample_ID) int64 3
Data variables:
    a                (sample_ID) float64 2.1
    b                (sample_ID) float64 6.1
    varsUpdate       (sample_ID) int64 1
    y                (sample_ID) float64 200.1
    x                (sample_ID) float64 20.1
    trajID           (sample_ID) int64 2

致电existing.merge(new,inplace=True)后的最终结果是

<xarray.Dataset>
Dimensions:          (sample_ID: 4)
Coordinates:
  * sample_ID  (sample_ID) int64 0 1 2 3
Data variables:
    a                (sample_ID) float64 1.0 2.0 1.1 2.1
    b                (sample_ID) float64 5.0 6.0 5.1 6.1
    varsUpdate       (sample_ID) float64 0.0 0.0 1.0 1.0
    y                (sample_ID) float64 100.0 200.0 100.1 200.1
    x                (sample_ID) float64 10.0 20.0 10.1 20.1
    trajID           (sample_ID) float64 1.0 2.0 1.0 2.0

您可以看到所有类型都已转换为float64。有没有一种有效的方法来维护整数类型？

Answer 1

xarray.merge(...)在两个阶段的过程中合并数据集：

在数据集上调用xarray.align(..., join='outer')以对齐其坐标。这引入了NaN，因此我们需要推广int64 - ＆gt; float64。
它创建合并的数据集，作为每个数组位置的对齐数据集的单个非NaN值。

由于它的工作方式，在参数尚未对齐时引入NaN几乎是不可避免的。

加入数据集的更好方法是xarray.concat(..., dim='sample_ID')。这并没有尝试做任何聪明的连接维度（在这种情况下为'sample_ID'），这意味着它更快并保留整数dtypes。

python-xarray：合并时更改dtypes

1 个答案: