我面临一个问题,我必须加载一个巨大的CSV文件,根据列中的唯一值将文件拆分为多个文件,然后将文件输出到具有预定义名称模式的多个Csv。
原始CSV的示例如下。
date place type product value zone
09/10/16 NY Zo shirt 19 1
09/10/16 NY Mo jeans 18 2
09/10/16 CA Zo trouser 13 3
09/10/16 CA Co tie 17 4
09/10/16 WA Wo bat 11 1
09/10/16 FL Zo ball 12 2
09/10/16 NC Mo belt 13 3
09/10/16 WA Zo buckle 15 4
09/10/16 WA Co glass 16 1
09/10/16 FL Zo cup 19 2
我必须根据位置,类型和区域将这个大熊猫数据框过滤成多个熊猫数据框,并且应该使用命名约定place_type_product_zone.csv将输出数据框转换为多个csv文件。
到目前为止,我得到的代码如下。
def list_of_dataframes(df, col_list):
df_list = [df]
name_list = []
for _, i in enumerate(col_list):
df_list, names = _split_dataframes(df_list, i)
file_name = zip(name_list, df)
_ = dict(zip(names, df))
for k, v in _:
v.to_csv("{0}.csv".format(k))
Print("CSV files created")
return df, file_name
def _split_dataframes(df_list, col):
names = []
dfs = []
for df in df_list:
for c in df[col].unique():
dfs.append(df.loc[df[col] == c])
names.append(c)
return dfs, names
list_of_dataframes(df,['place','type','zone']
它输出标题为1.csv,2.csv等的csv文件。如何在函数中创建循环以获取命名约定为NY_zo_shirt_1.csv,CA_Zo_trouser_3.csv等。我应该在其中创建字典的地方它存储所有密钥吗?
谢谢。
答案 0 :(得分:3)
这是-
# Part 1
places = df['place'].unique()
types = df['type'].unique()
products = df['product'].unique()
zones = df['zone'].unique()
# Part 2
import itertools
combs = list(itertools.product(*[places, types, products, zones]))
#Part 3
for comb in combs:
place, type_, prod, zone = comb
df_subset = df[(df['place']==place) & (df['type']==type_) & (df['product']==prod) & (df['zone']==zone)]
if df_subset.shape[0] > 0:
df_subset.to_csv('temp1/{}_{}_{}_{}.csv'.format(place, type_, prod, zone), index=False)
输出