多列

时间:2017-11-14 13:06:36

标签: python pandas datetime

我有一些看起来像这样的数据:

        key  DATE - DAY  DATE - MONTH  DATE - YEAR  GMT HRS  GMT MINUTES  
1        2          29             2         2016        2            2   
2        3          29             2         2016        2            2   
3        4          29             2         2016        2            2   
4        5          29             2         2016        2            2   
5        6          29             2         2016        2            2   
6        7          29             2         2016        2            2   
7        8          29             2         2016        2            3   
8        9          29             2         2016        2            3   
9       10          29             2         2016        2            3   

   GMT SECONDS  
1           54                  
2           55                 
3           56                 
4           57                   
5           58              
6           59          
7            0      
8            1  
9            2 

首先,数据类型为float,年份的格式为16,所以我做了:

t['DATE - MONTH'] = t['DATE - MONTH'].astype(int)
t['DATE - YEAR'] = t['DATE - YEAR'].astype(int)
t['DATE - YEAR'] = t['DATE - YEAR']+2000
t['DATE - DAY'] = t['DATE - DAY'].astype(int)

^注意我也很困惑,为什么当使用索引号而不是列名时,你只能处理看似临时表的内容,即你可以打印所需的结果,但它没有改变数据框。

然后我尝试了两种方法:

t['Date'] = pd.to_datetime(dict(year=t['DATE - YEAR'], month = t['DATE - MONTH'], day = t['DATE - DAY']))

t['Date'] = pd.to_datetime((t['DATE - YEAR']*10000+t['DATE - MONTH']*100+t['DATE - DAY']).apply(str),format='%Y%m%d')

两者都返回:

  

ValueError:无法汇总日期时间:时间数据20000000与格式'%Y%m%d'(匹配)不匹配

我想创建一个日期列(然后使用类似的逻辑为datetime列添加3列)。

有什么问题?

编辑:我有错误的数据并添加了errors='coerce'来处理这些行

1 个答案:

答案 0 :(得分:2)

首先重命名所有列,按dict值过滤并使用to_datetime

  

从DataFrame的多个列组装日期时间。键可以是常见的缩写,如['year','month','day','minute','second','ms','us','ns'])或复数形式。

d = {'DATE - YEAR':'year','DATE - MONTH':'month','DATE - DAY':'day',
     'GMT HRS':'hour','GMT MINUTES':'minute','GMT SECONDS':'second'}

df['datetime'] = pd.to_datetime(df.rename(columns=d)[list(d.values())])
print (df)
   key  DATE - DAY  DATE - MONTH  DATE - YEAR  GMT HRS  GMT MINUTES  \
1    2          29             2         2016        2            2   
2    3          29             2         2016        2            2   
3    4          29             2         2016        2            2   
4    5          29             2         2016        2            2   
5    6          29             2         2016        2            2   
6    7          29             2         2016        2            2   
7    8          29             2         2016        2            3   
8    9          29             2         2016        2            3   
9   10          29             2         2016        2            3   

   GMT SECONDS            datetime  
1           54 2016-02-29 02:02:54  
2           55 2016-02-29 02:02:55  
3           56 2016-02-29 02:02:56  
4           57 2016-02-29 02:02:57  
5           58 2016-02-29 02:02:58  
6           59 2016-02-29 02:02:59  
7            0 2016-02-29 02:03:00  
8            1 2016-02-29 02:03:01  
9            2 2016-02-29 02:03:02  

详情:

print (df.rename(columns=d)[list(d.values())])
   day  month  second  year  minute  hour
1   29      2      54  2016       2     2
2   29      2      55  2016       2     2
3   29      2      56  2016       2     2
4   29      2      57  2016       2     2
5   29      2      58  2016       2     2
6   29      2      59  2016       2     2
7   29      2       0  2016       3     2
8   29      2       1  2016       3     2
9   29      2       2  2016       3     2