在Numpy genfromtxt中加载日期

时间:2016-01-07 15:07:35

标签: python numpy genfromtxt

我正在尝试使用Numpy genfromtxt导入一个简单的CSV文件,但无法将第一列的数据转换为日期。

这是我的代码:

Yes: 2
No: 1
Total: 3

我在str2date中遇到以下错误:

  

TypeError:必须是str,而不是bytes

问题是有很多列,所以我宁愿避免所有列类型的规范(基本上是数字)。

3 个答案:

答案 0 :(得分:4)

问题是传递给str2date的参数的格式为b'%Y-%m-%d %H:%M:%S'。这些是字节,无法将其解析为日期时间对象。该问题的解决方案非常简单,因为您应该将字节字符串解码为UTF-8字符串:

str2date = lambda x: datetime.strptime(x.decode("utf-8"), '%Y-%m-%d %H:%M:%S')

答案 1 :(得分:0)

当我们想在一个 csv 文件中读取一个值代表日期的列时,我们必须考虑它是如何表示的,例如:

- 2021/12/05 = %Y/%m/%d
- 21/12/05 = %y/%m/%d
- 05/12/2021 = %d/%m/%Y
- 05/12/21 = %d/%m/%y
- 05-12-21 = %d-%m-%y
- ...

在创建 lambda 函数时必须考虑这些表示日期的方式,我们将在 NumPy getfromtxt() 方法中将其用作转换器。这个方法接受几个参数,其中,我们可以找到我们可以用不同方式使用的转换器,在这种情况下,它将把列的值转换为日期类型的值

converters variable, optional

    The set of functions that convert the data of a column to a value. The converters can also be used to provide a default value for missing data: 
     converters = {num_col: lambda_function }.

num_col - 表示函数将应用到的列数

lambda_function - 表示我们将为转换构建的函数

对于这个例子,我们将有两列,日期和级别,用 (;) 和 utf-8 编码分隔:

<头>
日期 级别
02-03-15 232.8
09-03-15 233.0
16-03-15 233.2
23-03-15 233.6
30-03-15 233.9
06-04-15 234.3
13-04-15 234.8
20-04-15 235.3
27-04-15 235.9

我们的代码应该是:

import numpy as np
from datetime import datetime

str2date = lambda x: datetime.strptime(x, '%d-%m-%y')
data = np.genfromtxt(file_path, delimiter=';', dtype=None, names=True, converters = {0: str2date}, encoding='utf-8')

变量 file_path 将被文件目录替换,包括文件名和扩展名。

分隔符:str、int 或序列,可选。用于分隔值的字符串。默认情况下,任何连续的空格都充当分隔符。也可以提供整数或整数序列作为每个字段的宽度。

dtype:dtype,可选。结果数组的数据类型。如果没有,dtypes 将由每列的内容单独确定。

名称 : {None, True, str, sequence},可选。如果名称为 True,则从第一个 skip_header 行之后的第一行读取字段名称。此行可以选择由注释分隔符继续。如果名称是逗号分隔名称的序列或单字符串,则名称将用于定义结构化 dtype 中的字段名称。如果名称为 None,则将使用 dtype 字段的名称(如果有)。

编码:str,可选。用于解码输入文件的编码。

要提取数据并使用它,我们可以:

levels= data['level']
dates= data['date']

答案 2 :(得分:-3)

这是非常好的主意。当我尝试使用numpy for Python 3.4时,我遇到了同样的问题。对于python 2.7.10,它不是必需的。谢谢。 :-)这是我的样本。

文件输入:

06-07-2016,95.5300,30877540.0000,94.6000,95.6600,94.3700
05-07-2016,95.0400,27553750.0000,95.3900,95.4000,94.4600
01-07-2016,95.8900,25982080.0000,95.4900,96.4650,95.3300*

<强>代码:

dates = numpy.loadtxt(
            'data.csv',
            dtype = object,
            converters={0: lambda x: datetime.datetime.strptime(x.decode("utf-8"), "%d-%m-%Y")},
            delimiter=',',
            usecols=(0,),
            unpack=True
)