我想编写一个脚本,该脚本从列中获取系列值,将它们拆分为字符串,并为每个结果字符串创建一个新列(现在用NaN填充)。由于df是groupedby
Column1,我想为每个组执行此操作
我的输入数据框如下所示:
df1:
Column1 Column2
0 L17 a,b,c,d,e
1 L7 a,b,c
2 L6 a,b,f
3 L6 h,d,e
我最终想要的是:
Column1 Column2 a b c d e f h
0 L17 a,b,c,d,e nan nan nan nan nan nan nan
1 L7 a,b,c nan nan nan nan nan nan nan
2 L6 a,b,f nan nan nan nan nan nan nan
我的代码目前看起来像这样:
def NewCols(x):
for item, frame in group['Column2'].iteritems():
Genes = frame.split(',')
for value in Genes:
string = value
x[string] = np.nan
return x
df1.groupby('Column1').apply(NewCols)
我的想法背后是代码循环遍历每个分组对象的Column2,用逗号分隔frame
中包含的值并为该组创建列表。到目前为止代码工作正常。然后我添加了
for value in Genes:
string = value
x[string] = np.nan
return x
旨在为列表Genes
中包含的每个值添加新列。但是,我的输出看起来像这样:
Column1 Column2 d
0 L17 a,b,c,d,e nan
1 L7 a,b,c nan
2 L6 a,b,f nan
3 L6 h,d,e nan
我非常愚蠢。有人可以解释为什么只有一列被追加(甚至没有在第一组的第一个列表中的第一个值之后命名)并建议我如何改进我的代码?
答案 0 :(得分:2)
我觉得你的功能太早了Map<Character,String> lookup = new HashMap<>();
lookup.put('a', "xuduo");
lookup.put('b', "bai");
lookup.put('c', "cai");
...
,在两个循环结束之前。如果你将它缩进两次,就像这样:
return
它应该可以正常工作!
答案 1 :(得分:1)
cols = sorted(list(set(df1['Column2'].apply(lambda x: x.split(',')).sum())))
df = df1.groupby('Column1').agg(lambda x: ','.join(x)).reset_index()
pd.concat([df,pd.DataFrame({c:np.nan for c in cols}, index=df.index)], axis=1)
Column1 Column2 a b c d e f h
0 L17 a,b,c,d,e NaN NaN NaN NaN NaN NaN NaN
1 L6 a,b,f,h,d,e NaN NaN NaN NaN NaN NaN NaN
2 L7 a,b,c NaN NaN NaN NaN NaN NaN NaN