我有以下代码:
import pandas as pd
import datetime
df = pd.read_html("https://en.wikipedia.org/wiki/List_of_presidents_of_the_United_States")[1]
df = df[:-1]
df.rename(columns={'Presidency[a].1':"Term"}, inplace = True)
df[['Start', 'End']] = df.Term.str.split("–", expand = True)
df['Start'] = pd.to_datetime(df['Start'].str.strip(), format = '%B %d, %Y', dayfirst = False)
运行此代码时,出现以下错误:
ValueError: unconverted data remains: [i]
请告知
答案 0 :(得分:2)
当我检查数据时,它有一些嘈杂的条目,例如:
'March 4, 1913',
'March 4, 1913',
'March 4, 1921',
'August 2, 1923[r]',
'August 2, 1923[r]',
您必须通过拆分来清除它们
df.Start = pd.Series([i.split('[')[0] for i in df.Start.tolist()])
然后它应该可以正常工作。看到输出:
In [28]: df.Start = pd.to_datetime(df['Start'].str.strip(), format = '%B %d, %Y', dayfirst = False)
In [29]: df.Start
Out[29]:
0 1789-04-30
1 1789-04-30
2 1797-03-04
答案 1 :(得分:1)
或者只是...
df.Start = df.Start.str.split("[", expand=True)
转换为日期时间之前
答案 2 :(得分:1)
几个日期在字符串末尾带有[i]
这样的注释。
以下内容使用带正则表达式的pandas字符串替换来删除有问题的注释。
df['Start'] = pd.to_datetime(df['Start'].str.replace("\[[a-z]\]", "", regex=True))