我正在尝试编写用于文件串联的代码。 1.我的目录中有29个不同名称的文件。每个文件名看起来都像“ XXX-‘印第安纳州名’-2010-11”。 CSV 由于有29个状态,因此每个文件名的中间名称都会更改。
每个文件都有一个标题行,该标题行具有5列(例如5组年份,例如2007-08,2008-09、2009-10等),总体上共有30行,每行在所有文件。
我的目标是创建一个将这些数据集的第4列连接在一起的数据框 例如说我的df应该看起来像(有29列30行) AP_2010-11 Gujarat_2010-11 ...... 行索引I值1值2 .......
AP,古吉拉特邦(Gujarat)等是印度少数几个州
如果有人可以很快做出回应并解决我的问题,那将是很棒的事情
答案 0 :(得分:0)
我还没有检查过错误,但这大致就是它的工作方式:
import os
import pandas as pd
dirlist = os.listdir()
csvs = [file for file in dirlist if "csv" in file]
alldata = pd.DataFrame()
for myfile in csvs:
actual_file_as_df = pd.read_csv(myfile)
alldata = pd.concat([alldata,actual_file_as_df])
output = alldata.iloc[:,3]