我从调查问卷中得到答案,我开始使用熊猫来处理它们。
到目前为止看起来像:
In[1]:
questionnaire = pd.DataFrame([{'age': 72, 'sex': 'M'},
{'age': 80, 'sex': 'F'}],
index=[np.array(['patient1', 'patient2'])])
questionnaire
Out[1]:
age sex
patient1 72 M
patient2 80 F
In[2]:
questionnaire.groupby('sex').size()
Out[2]:
sex
F 1
M 1
我的问题是这份问卷还带有开放式问题,可以得到多个答案。
所以我想以某种方式将这些多个值存储在一个单元格中,例如:
In[3]:
questionnaire = pd.DataFrame([{'age': 72, 'sex': 'M',
'activites': ['sleep', 'eat']},
{'age': 80, 'sex': 'F',
'activites': ['sleep', 'walk']}],
index=[np.array(['patient1', 'patient2'])])
questionnaire
Out[3]:
activites age sex
patient1 [sleep, eat] 72 M
patient2 [sleep, walk] 80 F
我期待的是:
In[?]:
questionnaire.groupby('activities').size()
Out[?]:
activities
eat 1
sleep 2
walk 1
但我在[3]中的尝试不起作用,因为数组只被视为数据帧中的“对象”。
我可能认为这是错误的方式。对于一位患者,是否有任何数据结构允许我从一个问题中获得多个值?