Question

我正在从篮球网站上删除一些数据，并且计划在添加新数据时自动对其进行更新。

我得到了数据

stats = pd.read_html('URL', header=[0, 1])
player_stats = stats[4]

player_stats.to_csv('stats.csv')

附加

with open('stats.csv', 'a') as f:
    player_stats.to_csv(f, header=False)

删除重复项（方法1）

old_data = pd.read_csv('stats.csv')
data = old_data.drop_duplicates(subset='Unnamed: 1_level_0', keep='last')
data.to_csv('stats.csv')

删除重复项（方法2）

old_data = pd.read_csv('stats.csv')
bool_series = data["Unnamed: 1_level_0"].duplicated(keep='last') 
bool_series 
data = data[~bool_series] 
data.to_csv('stats.csv')

我面临的问题是，在original data附加了new data之后，文件的删除重复方法messes up the structure使得将来无法将重复项作为重复项{{3}附加和删除。 }如此……

为什么要添加新索引，我该如何解决？

Answer 1

使用Panda's function concat()，而不是直接将数据附加到文件。注意参数轴。

熊猫append（）并删除重复项会使索引混乱

1 个答案: