我正在从篮球网站上删除一些数据,并且计划在添加新数据时自动对其进行更新。
我得到了数据
stats = pd.read_html('URL', header=[0, 1])
player_stats = stats[4]
player_stats.to_csv('stats.csv')
附加
with open('stats.csv', 'a') as f:
player_stats.to_csv(f, header=False)
删除重复项(方法1)
old_data = pd.read_csv('stats.csv')
data = old_data.drop_duplicates(subset='Unnamed: 1_level_0', keep='last')
data.to_csv('stats.csv')
删除重复项(方法2)
old_data = pd.read_csv('stats.csv')
bool_series = data["Unnamed: 1_level_0"].duplicated(keep='last')
bool_series
data = data[~bool_series]
data.to_csv('stats.csv')
我面临的问题是,在original data附加了new data之后,文件的删除重复方法messes up the structure使得将来无法将重复项作为重复项{{3}附加和删除。 }如此……
为什么要添加新索引,我该如何解决?