熊猫append()并删除重复项会使索引混乱

时间:2019-11-13 11:05:35

标签: python pandas data-science

我正在从篮球网站上删除一些数据,并且计划在添加新数据时自动对其进行更新。

我得到了数据

stats = pd.read_html('URL', header=[0, 1])
player_stats = stats[4]

player_stats.to_csv('stats.csv')

附加

with open('stats.csv', 'a') as f:
    player_stats.to_csv(f, header=False)

删除重复项(方法1)

old_data = pd.read_csv('stats.csv')
data = old_data.drop_duplicates(subset='Unnamed: 1_level_0', keep='last')
data.to_csv('stats.csv')

删除重复项(方法2)

old_data = pd.read_csv('stats.csv')
bool_series = data["Unnamed: 1_level_0"].duplicated(keep='last') 
bool_series 
data = data[~bool_series] 
data.to_csv('stats.csv')

我面临的问题是,在original data附加了new data之后,文件的删除重复方法messes up the structure使得将来无法将重复项作为重复项{{3}附加和删除。 }如此……

为什么要添加新索引,我该如何解决?

1 个答案:

答案 0 :(得分:0)

使用Panda's function concat(),而不是直接将数据附加到文件。注意参数轴。