我有一个问卷数据集,其中一列(一个问题)有多个可能的答案。该列的数据是一个列表的列表,有多个可能的值,从无到五,即'[1]'
或'[1, 2, 3, 5]'
我正在尝试处理该列以独立访问值,如下所示:
def f(x):
if notnull(x):
p = re.compile( '[\[\]\'\s]' )
places = p.sub( '', x ).split( ',' )
place_tally = {'1':0, '2':0, '3':0, '4':0, '5':0}
for place in places:
place_tally[place] += 1
return place_tally
df['places'] = df.where_buy.map(f)
这会在我的数据框“places”中创建一个新列,其中包含来自值的字典,即:{'1': 1, '3': 0, '2': 0, '5': 0, '4': 0}
或{'1': 1, '3': 1, '2': 1, '5': 1, '4': 0}
现在,从新列中提取数据的最有效/简洁方法是什么?我试过迭代DataFrame而没有好的结果,即
for row_index, row in df.iterrows():
r = row['places']
if r is not None:
df.ix[row_index]['large_super'] = r['1']
df.ix[row_index]['small_super'] = r['2']
这似乎不起作用。
感谢。
答案 0 :(得分:0)
这是你打算做的吗?
for i in range(1,6):
df['super_'+str(i)] = df['place'].map(lambda x: x.count(str(i)) )