我有代码将social security names file读入数据帧:
import glob
path ='/mnt/bigdata/GenderClassification/SSA'
allFiles = glob.glob(path + "/yob????.txt")
list_ = []
for file_ in allFiles:
df = pd.read_csv(file_,index_col=None, header=0,names=["Name","Gender","Frequency"])
list_.append(df)
#print file_
#print df.loc[0,:]
ssi = pd.concat(list_)
ssi
然后我将其与频率之和进行汇总:
ssi_sum=ssi.groupby(['Name','Gender']).aggregate(np.sum)
但结果失去了列规范:
因为一个关键错误,这已不再可能了:
ssi_sum['Name']
由于"长度不匹配,我无法重命名列。
ssi_sum.columns=['Name','Gender','Frequency']
如何进行聚合并保留列名?