我正在使用Pandas将大型csv拆分为多个csv,每个csv仅包含一行。 我有一个具有100万条记录的csv,使用下面的代码要花费很多时间。 例如:在上述情况下,将创建100万个csv。 任何人都可以帮助我,如何减少分割csv的时间。
for index, row in lead_data.iterrows():
row.to_csv(row['lead_id']+".csv")
lead_data是数据框对象。
谢谢
答案 0 :(得分:1)
您不需要遍历数据。通过lead_id和数据导出到CSV文件中筛选记录。这样,你就可以根据前置ID(假设)的文件分割。 例如,分割所有EPL游戏其中军火库在家:
data=pd.read_csv('footbal/epl-2017-GMTStandardTime.csv')
print("Selecting Arsenal")
ft=data.loc[data['HomeTeam']=='Arsenal']
print(ft.head())
# Export data to CSV
ft.to_csv('arsenal.csv')
print("Done!")
这种方式比一次使用一条记录要快得多。