为什么我的for循环覆盖而不是追加?

时间:2017-06-09 18:56:37

标签: python csv pandas append hdfstore

我有多个(25k).csv文件,我试图将其附加到HDFStore文件中。它们都共享相同的标题。我使用下面的代码,但由于某种原因,每当我运行它时,数据帧不会附加所有文件,而只是列表中的最后一个文件。

filenames = []  #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}
store = pd.HDFStore('store.h5')
store.put('df', pd.read_csv(filenames[0],dtype=dtypes,parse_dates=
["date"])) #store one data frame

for f in filenames:
    try:
        temp_csv = pd.DataFrame()
        temp_csv = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"]) 
        store.append('df', temp_csv)
    except:
    pass

我尝试过使用文件名列表的子集,但总是得到最后一个条目。出于某种原因,循环不会附加我的文件,而是每次都覆盖它。任何建议都会受到赞赏,因为这会让我感到疯狂。 (python 3,windows)

2 个答案:

答案 0 :(得分:0)

我认为问题与:

有关

store.append('df', temp_csv)

如果我正确地理解了您要做的事情,那么' df'应该改变每一次迭代,你现在只是覆盖它。

答案 1 :(得分:0)

你正在为每次迭代创建/存储一个新的DataFrame,就像@SeaMonkey所说的那样。您的统一数据框应该在循环之外实例化,就像这样。

filenames = []  #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}

df = pd.DataFrame()
for f in filenames:
    df_tmp = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"]) 
    df = df.append(df_tmp)

store = pd.HDFStore('store.h5')
store.put('df', df)