我有一个这样的数据框
df = (pd.DataFrame({'ID': ['ID1', 'ID2', 'ID3'],
'Values': [['AB', 'BC'], np.NaN, ['AB', 'CD']]}))
df
ID Values
0 ID1 [AB, BC]
1 ID2 NaN
2 ID3 [AB, CD]
我想将列表中的项目拆分为列,这样
ID AB BC CD
0 ID1 1 1 0
1 ID2 0 0 0
2 ID3 1 0 1
答案 0 :(得分:1)
熊猫函数可以很好地处理缺失值,因此将Series.str.join
与Series.str.get_dummies
配合使用,DataFrame.pop
用于提取列,最后join
用于原始数据:
df = df.join(df.pop('Values').str.join('|').str.get_dummies())
print (df)
ID AB BC CD
0 ID1 1 1 0
1 ID2 0 0 0
2 ID3 1 0 1
编辑:如果值不是列表,则仅列表的字符串表示形式使用ast.literal_eval
转换为列表:
import ast
df = (df.join(df.pop('Values')
.apply(ast.literal_eval)
.str.join('|')
.str.get_dummies()))