Question

我正在使用Pandas将大型csv拆分为多个csv，每个csv仅包含一行。我有一个具有100万条记录的csv，使用下面的代码要花费很多时间。例如：在上述情况下，将创建100万个csv。任何人都可以帮助我，如何减少分割csv的时间。

for index, row in lead_data.iterrows():
    row.to_csv(row['lead_id']+".csv")

lead_data是数据框对象。

谢谢

Answer 1

您不需要遍历数据。通过lead_id和数据导出到CSV文件中筛选记录。这样，你就可以根据前置ID（假设）的文件分割。例如，分割所有EPL游戏其中军火库在家：

data=pd.read_csv('footbal/epl-2017-GMTStandardTime.csv')
print("Selecting Arsenal")
ft=data.loc[data['HomeTeam']=='Arsenal']
print(ft.head())
# Export data to CSV
ft.to_csv('arsenal.csv')
print("Done!")

这种方式比一次使用一条记录要快得多。

将大CSV拆分为包含每行的多个CSV

1 个答案: