我有多个(25k).csv文件,我试图将其附加到HDFStore文件中。它们都共享相同的标题。我使用下面的代码,但由于某种原因,每当我运行它时,数据帧不会附加所有文件,而只是列表中的最后一个文件。
filenames = [] #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}
store = pd.HDFStore('store.h5')
store.put('df', pd.read_csv(filenames[0],dtype=dtypes,parse_dates=
["date"])) #store one data frame
for f in filenames:
try:
temp_csv = pd.DataFrame()
temp_csv = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"])
store.append('df', temp_csv)
except:
pass
我尝试过使用文件名列表的子集,但总是得到最后一个条目。出于某种原因,循环不会附加我的文件,而是每次都覆盖它。任何建议都会受到赞赏,因为这会让我感到疯狂。 (python 3,windows)
答案 0 :(得分:0)
我认为问题与:
有关 store.append('df', temp_csv)
如果我正确地理解了您要做的事情,那么' df'应该改变每一次迭代,你现在只是覆盖它。
答案 1 :(得分:0)
你正在为每次迭代创建/存储一个新的DataFrame,就像@SeaMonkey所说的那样。您的统一数据框应该在循环之外实例化,就像这样。
filenames = [] #list of .csv file paths that I've alredy populated
dtypes= {dict of datatypes}
df = pd.DataFrame()
for f in filenames:
df_tmp = pd.read_csv(f,dtype=dtypes,parse_dates=["trade_date"])
df = df.append(df_tmp)
store = pd.HDFStore('store.h5')
store.put('df', df)