Pandas使用unix时间戳(以毫秒为单位)将行转换为日期时间

时间:2016-01-19 17:20:35

标签: python pandas datetime

我需要处理大量的CSV文件,其中时间戳始终是表示unix时间戳的字符串,以毫秒为单位。我找不到一种方法来有效地修改这些列。

这就是我提出的,但是这当然只复制了列,我必须以某种方式将它放回原始数据集。我确定在创建DataFrame

时可以完成
import sys
if sys.version_info[0] < 3:
    from StringIO import StringIO
else:
    from io import StringIO
import pandas as pd

data = 'RUN,UNIXTIME,VALUE\n1,1447160702320,10\n2,1447160702364,20\n3,1447160722364,42'

df = pd.read_csv(StringIO(data))

convert = lambda x: datetime.datetime.fromtimestamp(x / 1e3)
converted_df = df['UNIXTIME'].apply(convert)

这将选择“UNIXTIME”列并从

更改它
0    1447160702320
1    1447160702364
2    1447160722364
Name: UNIXTIME, dtype: int64

进入这个

0   2015-11-10 14:05:02.320
1   2015-11-10 14:05:02.364
2   2015-11-10 14:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

但是,我想使用像pd.apply()之类的东西来获取返回列的整个数据集,或者正如我已经写过的那样,只需在从CSV生成DataFrame时创建日期时间。

4 个答案:

答案 0 :(得分:31)

您可以使用to_datetime作为后处理步骤并传递arg unit='ms'

In [5]:
df['UNIXTIME'] = pd.to_datetime(df['UNIXTIME'], unit='ms')
df

Out[5]:
   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42

答案 1 :(得分:6)

我使用@EdChum解决方案,但我添加了时区管理:

df['UNIXTIME']=pd.DatetimeIndex(pd.to_datetime(pd['UNIXTIME'], unit='ms'))\
                 .tz_localize('UTC' )\
                 .tz_convert('America/New_York')

tz_localize表示时间戳应被视为关于'UTC',然后tz_convert实际上将日期/时间移动到正确的时区(在本例中为'America / New_York')。< / p>

请注意,它已转换为DatetimeIndex,因为tz_方法仅适用于系列的索引。由于Pandas 0.15可以使用.dt

df['UNIXTIME']=pd.to_datetime(pd['UNIXTIME'], unit='ms')\
                 .dt.tz_localize('UTC' )\
                 .dt.tz_convert('America/New_York')

答案 2 :(得分:2)

我想出了一个解决方案:

convert = lambda x: datetime.datetime.fromtimestamp(float(x) / 1e3)

df = pd.read_csv(StringIO(data), parse_dates=['UNIXTIME'], date_parser=convert)

我仍然不确定这是否是最好的。

答案 3 :(得分:1)

如果您知道时间戳单位,请使用Series.astype

df['UNIXTIME'].astype('datetime64[ms]')

0   2015-11-10 13:05:02.320
1   2015-11-10 13:05:02.364
2   2015-11-10 13:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]

要返回整个DataFrame,请使用

df.astype({'UNIXTIME': 'datetime64[ms]'})

   RUN                UNIXTIME  VALUE
0    1 2015-11-10 13:05:02.320     10
1    2 2015-11-10 13:05:02.364     20
2    3 2015-11-10 13:05:22.364     42