使用numpy.savetxt实现不同的列格式

时间:2016-09-28 23:03:56

标签: python csv numpy save

我想使用.csv创建一个numpy.savetxt文件。文件的每个row表示某个事件。每行都有多个columns,表示事件的不同元素。存储在每个column中的信息是不同的。某些columns将包含单个float值,而其他floats应包含两个相互连接的.csv。如果我在加载float时调用该列,则应获取两个import numpy rows = 5 columns = 2 save_values = numpy.zeros((rows, columns)) for idx in xrange(rows): column_0 = float(idx) column_1 = [idx + 5., idx + 15.] save_values[idx, :] = column_0, column_1 numpy.savetxt("outfile.csv", save_values, delimiter = ",") 值。

我有以下代码:

  save_values[idx, :] = column_0, column_1
ValueError: setting an array element with a sequence.

然而,这会导致以下错误消息:

{{1}}

这是可以理解的。然而,尽管知道为什么会出错,但我很难实现自己的目标。

我如何实现目标?

1 个答案:

答案 0 :(得分:1)

您甚至没有进入savetxt步骤。

save_values[idx, :] = column_0, column_1

目标是2个值(2列)。来源是idx和列表。

这就是为什么它会给你'设置序列'错误。它无法将列表放在save_values[idx,1]

您可以定义一个包含2个字段的save_values数组,其中一个字段包含2个元素。但是你会怎么保存它?

文本文件应该如何显示 - 由,分隔的3列?或者在第二个?中有两个具有特殊结构的列,例如

 1.2, 3.5, 4.2   # or
 1.2, [2.5, 4.2]

这又引发了可以加载的问题。 genfromtxt可以处理3列;它不能轻易地处理嵌套列。默认情况下,genfromtxt会将3列案例视为3列,但可以为其提供2个字段dtype

无论如何,为了节省我认为生成3列是最简单的。可以使用列或字段重新加载。

我可以用:

生成一个复合dtype数组
In [329]: dt = np.dtype('i,(2,)f')
In [330]: dt
Out[330]: dtype([('f0', '<i4'), ('f1', '<f4', (2,))])
In [331]: save_values = np.zeros((5,),dtype=dt)
In [332]: for i in range(5):
     ...:     save_values[i]=(i,(i+5., i+15.))
     ...:     
In [333]: save_values
Out[333]: 
array([(0, [5.0, 15.0]), (1, [6.0, 16.0]), (2, [7.0, 17.0]),
       (3, [8.0, 18.0]), (4, [9.0, 19.0])], 
      dtype=[('f0', '<i4'), ('f1', '<f4', (2,))])

但如果我尝试保存它,我会收到错误

In [334]: np.savetxt('test.txt',save_values,delimiter=',')
...
TypeError: Mismatch between array dtype ('[('f0', '<i4'), ('f1', '<f4', (2,))]') and format specifier ('%.18e,%.18e')

我可以通过拼写出写格式fmt%tuple(save_values[0])来保存它,但是会将[]放在输出中:

In [335]: np.savetxt('test.txt',save_values,fmt='%10d, %s')
In [336]: cat test.txt
         0, [  5.  15.]
         1, [  6.  16.]
         2, [  7.  17.]
         3, [  8.  18.]
         4, [  9.  19.]

我可以用视图展平数组dtype(这里我保留第一个字段整数只是为了让事情变得有趣):

In [337]: dt1=np.dtype('i,f,f')
In [338]: save_values.view(dt1)
Out[338]: 
array([(0, 5.0, 15.0), (1, 6.0, 16.0), (2, 7.0, 17.0), (3, 8.0, 18.0),
       (4, 9.0, 19.0)], 
      dtype=[('f0', '<i4'), ('f1', '<f4'), ('f2', '<f4')])

现在我可以将其保存为3列:

In [340]: np.savetxt('test.txt',save_values.view(dt1),fmt='%10d, %10f, %10f')
In [341]: cat test.txt
         0,   5.000000,  15.000000
         1,   6.000000,  16.000000
         2,   7.000000,  17.000000
         3,   8.000000,  18.000000
         4,   9.000000,  19.000000

我可以用dtype重新加载它:

In [342]: np.genfromtxt('test.txt',delimiter=',',dtype=dt)
Out[342]: 
array([(0, [5.0, 15.0]), (1, [6.0, 16.0]), (2, [7.0, 17.0]),
       (3, [8.0, 18.0]), (4, [9.0, 19.0])], 
      dtype=[('f0', '<i4'), ('f1', '<f4', (2,))])

In [343]: np.genfromtxt('test.txt',delimiter=',',dtype=dt1)
Out[343]: 
array([(0, 5.0, 15.0), (1, 6.0, 16.0), (2, 7.0, 17.0), (3, 8.0, 18.0),
       (4, 9.0, 19.0)], 
      dtype=[('f0', '<i4'), ('f1', '<f4'), ('f2', '<f4')])

我本可以使用5x3浮点数组创建text.txt

savetxt的关键点是它遍历数组的行,格式化它们,并将该行写入文件。所以你的数组必须使用:

for row in myarray:
   print(fmt % tuple(row))

fmt可以拼写出来,也可以从单一字段格式构建,例如。

fmt = ','.join(['%10f']*3)   # or
fmt = '%10d, %10f, %10f'

所以它归结为标准的Python字符串格式化。