将熊猫格式的列转换为具有特定格式的datetime

时间:2020-09-23 21:58:21

标签: python pandas datetime

我有以下代码:

import pandas as pd
import datetime
df = pd.read_html("https://en.wikipedia.org/wiki/List_of_presidents_of_the_United_States")[1]
df = df[:-1]
df.rename(columns={'Presidency[a].1':"Term"}, inplace = True)
df[['Start', 'End']] = df.Term.str.split("–", expand = True)
df['Start'] = pd.to_datetime(df['Start'].str.strip(), format = '%B %d, %Y', dayfirst = False)

运行此代码时,出现以下错误:

ValueError: unconverted data remains: [i]

请告知

3 个答案:

答案 0 :(得分:2)

当我检查数据时,它有一些嘈杂的条目,例如:

 'March 4, 1913',
 'March 4, 1913',
 'March 4, 1921',
 'August 2, 1923[r]',
 'August 2, 1923[r]',

您必须通过拆分来清除它们 df.Start = pd.Series([i.split('[')[0] for i in df.Start.tolist()])

然后它应该可以正常工作。看到输出:

In [28]: df.Start = pd.to_datetime(df['Start'].str.strip(), format = '%B %d, %Y', dayfirst = False)

In [29]: df.Start
Out[29]: 
0    1789-04-30
1    1789-04-30
2    1797-03-04

答案 1 :(得分:1)

或者只是...

df.Start = df.Start.str.split("[", expand=True)

转换为日期时间之前

答案 2 :(得分:1)

几个日期在字符串末尾带有[i]这样的注释。

以下内容使用带正则表达式的pandas字符串替换来删除有问题的注释。

df['Start'] = pd.to_datetime(df['Start'].str.replace("\[[a-z]\]", "", regex=True))