NumPy:旧数据描述符和新数据描述符的大小不匹配

时间:2015-12-15 16:42:33

标签: python csv numpy genfromtxt

在阅读CSV文件时,我遇到了NumPy 1.10.2的以下问题。我无法弄清楚如何为genfromtxt提供明确的数据类型。

以下是CSV,minimal.csv

x,y
1,hello
2,hello
3,jello
4,jelly
5,belly

我试着用genfromtxt来阅读它:

import numpy
numpy.genfromtxt('minimal.csv', dtype=(int, str))

我也尝试过:

import numpy
numpy.genfromtxt('minimal.csv', names=True, dtype=(int, str))

无论如何,我收到错误:

Traceback (most recent call last):
  File "visualize_numpy.py", line 39, in <module>
    numpy.genfromtxt('minimal.csv', dtype=(int, str))
  File "/Users/xeli/workspace/myproj/env/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1518, in genfromtxt
    replace_space=replace_space)
  File "/Users/xeli/workspace/myproj/env/lib/python3.5/site-packages/numpy/lib/_iotools.py", line 881, in easy_dtype
    ndtype = np.dtype(ndtype)
ValueError: mismatch in size of old and new data-descriptor

或者,我试过了:

import numpy
numpy.genfromtxt('minimal.csv', dtype=[('x', int), ('y', str)])

引发:

Traceback (most recent call last):
  File "visualize_numpy.py", line 39, in <module>
    numpy.genfromtxt('minimal.csv', dtype=[('x', int), ('y', str)])
  File "/Users/xeli/workspace/myproj/env/lib/python3.5/site-packages/numpy/lib/npyio.py", line 1834, in genfromtxt
    rows = np.array(data, dtype=[('', _) for _ in dtype_flat])
ValueError: size of tuple must match number of fields.

我知道dtype=None让NumPy尝试猜测正确的类型并且通常效果很好。但是,文档提到它比显式类型慢得多。在我的情况下,计算效率是必需的,因此dtype=None不是一种选择。

我的方法或NumPy有什么特别的错误吗?

3 个答案:

答案 0 :(得分:3)

这很有效,并保留了您的标题信息:

df = numpy.genfromtxt('minimal.csv',
                      names=True,
                      dtype=None,
                      delimiter=',')

这使得genfromtxt猜测dtype,这通常是你想要的。 Delimiter是一个逗号,所以我们也应该传递该参数,最后names=True保留标题信息。

只需像访问任何框架一样访问您的数据:

>>>>print(df['x'])
[1 2 3 4 5]

编辑:根据您在下方的评论,您可以明确提供dtype,如下所示:

df = numpy.genfromtxt('file1.csv',
                      names=True,
                      dtype=[('x', int), ('y', 'S5')], # assuming each string is of len =< 5
                      delimiter=',')

答案 1 :(得分:0)

简要浏览documentation,默认delimiter=None

尝试numpy.genfromtxt('minimal.csv', dtype=(int, str), names=True, delimiter=',')

答案 2 :(得分:0)

我处于相同的位置,我不确定为什么我提供的类型会抛出错误。也就是说,这对您来说可能是一个可行的解决方案。以下是使用我的数据集的示例,它与您的数据集类似。

首先,加载一些数据并检查NumPy使用的实际dtypes:

>>> movies = np.genfromtxt('movies.csv', delimiter='|', dtype=None)
>>> movies
array([(1, 'Toy Story (1995)'), (2, 'GoldenEye (1995)'),
       (3, 'Four Rooms (1995)'), ..., (1680, 'Sliding Doors (1998)'),
       (1681, 'You So Crazy (1994)'),
       (1682, 'Scream of Stone (Schrei aus Stein) (1991)')],
      dtype=[('f0', '<i8'), ('f1', 'S81')])

然后使用检测到的类型加载所有数据:

>>> movies = np.genfromtxt('movies.csv', delimiter='|', 
                           dtype=[('f0', '<i8'), ('f1', 'S81')]) 

这肯定不如知道为什么NumPy会抛出错误,但它适用于您的特定用例。