使用scipy.io.savemat

时间:2019-05-21 14:28:13

标签: python arrays matlab numpy scipy

我正在尝试使用python创建.mat数据文件。 Matlab代码期望数据具有某种格式,其中大小不一致的二维ndarray作为对象存储在列向量中。因此,在我的情况下,将有k个形状为(m_i,n)的numpy数组-每个数组具有不同的m_i-存储在形状为dtype=object(k,1)的numpy数组中。然后,我将此对象数组添加到字典中,并将其传递给scipy.io.savemat()

只要m_i确实不同,此方法就可以正常工作。如果所有k个数组碰巧具有相同的行数m_i,则该行为将变得很奇怪。首先,它需要非常明确地分配给已初始化为最终大小k的dtype = object的numpy数组,否则numpy只会创建三维数组。但是,即使我在python中使用了正确的格式并将其存储到使用savemat的.mat文件中,在转换为matlab格式时仍然存在一些问题。

当我使用scipy.io.loadmat从.mat文件中重新加载数据时,我发现我仍然具有形状(k,1)的对象数组,该对象数组仍然具有形状(m,n)的元素。但是,每个元素不再是int或float,而是一个形状(1、1)的numpy数组,必须进一步对其进行索引才能访问所包含的int或float。因此,应该是形状为(2,4)的numpy数组的对象向量的单个元素看起来应该像这样:

[array([[array([[0.82374894]]), array([[0.50730055]]),
        array([[0.36721625]]), array([[0.45036349]])],
       [array([[0.26119276]]), array([[0.16843872]]),
        array([[0.28649524]]), array([[0.64239569]])]], dtype=object)]

这也给我要为其建立数据文件的matlab代码带来了问题。对于形状不同的对象数组,它运行得很好,但是当存在包含相同形状的数组的数组时,它将破坏。

我知道这是一个相当模糊的问题,可能是不可避免的问题,但我认为我可以看看是否有人遇到过该问题并找到了解决方法。谢谢。

1 个答案:

答案 0 :(得分:0)

我对这个问题不太清楚。让我尝试重新创建您的案例:

In [58]: from scipy.io import loadmat, savemat                               
In [59]: A = np.empty((2,1), object)     
In [61]: A[0,0]=np.arange(4).reshape(2,2)                                    
In [62]: A[1,0]=np.arange(6).reshape(3,2)                                    
In [63]: A                                                                   
Out[63]: 
array([[array([[0, 1],
       [2, 3]])],
       [array([[0, 1],
       [2, 3],
       [4, 5]])]], dtype=object)
In [64]: B=A[[0,0],:]                                                        
In [65]: B                                                                   
Out[65]: 
array([[array([[0, 1],
       [2, 3]])],
       [array([[0, 1],
       [2, 3]])]], dtype=object)

正如我今天早些时候解释的那样,从匹配大小的数组创建对象dtype数组需要特殊处理。 np.array(...)尝试创建更高维的数组。 https://stackoverflow.com/a/56243305/901925

保存:

In [66]: savemat('foo.mat', {'A':A, 'B':B})                                  

正在加载:

In [74]: loadmat('foo.mat')                                                  
Out[74]: 
{'__header__': b'MATLAB 5.0 MAT-file Platform: posix, Created on: Tue May 21 11:20:42 2019',
 '__version__': '1.0',
 '__globals__': [],
 'A': array([[array([[0, 1],
        [2, 3]])],
        [array([[0, 1],
        [2, 3],
        [4, 5]])]], dtype=object),
 'B': array([[array([[0, 1],
        [2, 3]])],
        [array([[0, 1],
        [2, 3]])]], dtype=object)}
In [75]: _74['A'][1,0]                                                       
Out[75]: 
array([[0, 1],
       [2, 3],
       [4, 5]])

您遇到的问题似乎是一个包含数字的对象dtype数组:

In [89]: C = np.arange(4).reshape(2,2).astype(object)                        
In [90]: C                                                                   
Out[90]: 
array([[0, 1],
       [2, 3]], dtype=object)
In [91]: savemat('foo1.mat', {'C': C})                                       
In [92]: loadmat('foo1.mat')                                                 
Out[92]: 
{'__header__': b'MATLAB 5.0 MAT-file Platform: posix, Created on: Tue May 21 11:39:31 2019',
 '__version__': '1.0',
 '__globals__': [],
 'C': array([[array([[0]]), array([[1]])],
        [array([[2]]), array([[3]])]], dtype=object)}

显然,savemat已将整数对象转换为2d MATLAB兼容数组。在MATLAB中,所有东西,甚至是标量,都至少为2d。

===

在Octave中,对象dtype数组都产生单元格,而2d数字数组产生矩阵:

>> load foo.mat
>> A
A =
{
  [1,1] =

    0  1
    2  3

  [2,1] =

    0  1
    2  3
    4  5

}
>> B
B =
{
  [1,1] =

    0  1
    2  3

  [2,1] =

    0  1
    2  3

}
>> load foo1.mat
>> C
C =
{
  [1,1] = 0
  [2,1] = 2
  [1,2] = 1
  [2,2] = 3
}

Python: Issue reading in str from MATLAB .mat file using h5py and NumPy

是相对较新的SO,它表明Octave HDF5与MATLAB之间存在差异。