genfromtxt错误 - 得到n列而不是m

时间:2015-03-02 13:57:40

标签: python numpy genfromtxt

我正在尝试使用带有标题名称和非同类数据类型的numpy的genfromtxt导入数据。每次我运行程序时都会收到错误:

Traceback (most recent call last):
    raise ValueError(errmsg)
ValueError: Some errors were detected !
    Line #8 (got 6 columns instead of 1)
    Line #9 (got 6 columns instead of 1)
    Line #10 (got 6 columns instead of 1)
    Line #11 (got 6 columns instead of 1)
    Line #12 (got 6 columns instead of 1)

我已经完成了这个question 但它没有解决我的问题。这是一个非常简单的问题,但我无法弄清楚出了什么问题。代码和数据包括在内:

代码

import numpy as np
data = np.genfromtxt('Data.dat', comments='#', delimiter='\t', names=True, dtype=None).transpose()
print data

制表符分隔数据

# -----
# -----
# -----
# -----
# -----
# -----
# -----
column_1    column_2    column_3    column_4    column_5    column_6
1   2   3   A   1   F
4   3   2   B   2   G
1   4   3   C   3   H
5   6   4   D   4   I

更新

简而言之,我需要的是一种将skip_header之后的第一个有效行转换为第一个带有可选参数names = True的未注释有效行的方法。

3 个答案:

答案 0 :(得分:2)

names=Truegenfromtxt期望第一行行(skip_header行之后)包含字段名称时,即使该行是注释。显然,在注释中指定字段名称是很常见的。如果您在之前添加了可变数量的评论未注释的字段名称,则必须解决genfromtxt的这个怪癖。以下显示了一种方法。

这是我的测试文件。 (该文件以空格分隔。在delimiter='\t'的调用中添加genfromtxt以获取制表符分隔文件。

In [12]: cat with_comments.dat
# Some
# comments
# here
foo bar baz
1.0 2.0 3.0
4.0 5.0 6.0
7.0 8.0 9.0

打开文件,读取行直到该行不是注释:

In [13]: f = open("with_comments.dat", "r")

In [14]: line = f.readline()

In [15]: while line.startswith('#'):
   ....:     line = f.readline()
   ....: 

line现在拥有字段名称行:

In [16]: line
Out[16]: 'foo bar baz\n'

将其转换为名称列表:

In [17]: names = line.split()

将这些名称提供给genfromtxt,并阅读文件的其余部分:

In [18]: data = genfromtxt(f, names=names)

In [19]: data
Out[19]: 
array([(1.0, 2.0, 3.0), (4.0, 5.0, 6.0), (7.0, 8.0, 9.0)], 
      dtype=[('foo', '<f8'), ('bar', '<f8'), ('baz', '<f8')])

不要忘记关闭文件(或者更好,改为使用with("with_comments.dat", "r") as f:):

In [20]: f.close()

答案 1 :(得分:0)

好的,有点刺激已经揭示了答案。来自genfromtxt()文档(http://docs.scipy.org/doc/numpy/user/basics.io.genfromtxt.html):

  

注意:此行为有一个值得注意的例外:如果是可选的   参数names = True,将检查第一个注释行   名。

因此,要使代码正常工作,您的数据应采用以下格式:

#column_1   column_2    column_3    column_4    column_5    column_6
#   -----
#   -----
#   -----
#   -----
#   -----
#   -----
1   2   3   A   1   F
4   3   2   B   2   G
1   4   3   C   3   H
5   6   4   D   4   I

或者,如果您有可变数量的标题/注释行,但列都相同,那么您可以在genfromtxt参数中定义列名称:

data = np.genfromtxt(
    path, comments='#', delimiter='\t', 
    names='column_1,column_2,column_3,column_4,column_5,column_6',
    dtype=None
)

但是,通过使用comments关键字,genfromtxt将读取最后一个评论行之后的第一行,该行包含您的列标题。它会假设它是数据的一部分,因此你的dtype应该是字符串,所以你在这个阶段的数据将如下所示:

array([('column_1', 'column_2', 'column_3', 'column_4', 'column_5', 'column_6'),
       ('1', '2', '3', 'A', '1', 'F'), ('4', '3', '2', 'B', '2', 'G'),
       ('1', '4', '3', 'C', '3', 'H'), ('5', '6', '4', 'D', '4', 'I')], 
      dtype=[('column_1', 'S8'), ('column_2', 'S8'), ('column_3', 'S8'), ('column_4', 'S8'), ('column_5', 'S8'), ('column_6', 'S8')])

如果你知道你的列应该是什么数据类型,你首先要取一个不包括第一行的切片:

data1 = data[1:]

然后修改dtypes

data1.astype(np.dtype([('column_1', 'i4'),('column_2', 'i4'), ('column_3', 'i4'), ('column_4', 'S10'), ('column_5', 'i4'), ('column_6', 'S10')]))

输出:

array([(1, 2, 3, 'A', 1, 'F'), (4, 3, 2, 'B', 2, 'G'),
       (1, 4, 3, 'C', 3, 'H'), (5, 6, 4, 'D', 4, 'I')], 
      dtype=[('column_1', '<i4'), ('column_2', '<i4'), ('column_3', '<i4'), ('column_4', 'S10'), ('column_5', '<i4'), ('column_6', 'S10')])

答案 2 :(得分:0)

根据genfromtxt的文件:

  

如果names为True,则从第一行skip_header行后的第一个有效行读取字段名称。

在您的示例中,您可以将skip_header=7添加到genfromtxt来电,以使其正常运行。