我正在尝试制作报告/分析应用程序。
我想将数据从简单的Django“民意调查”应用程序移至DataFrame进行分析(最初是基本统计信息)。预期的信息量很少,因此我没有针对性能进行优化。
frame = pd.DataFrame.from_records([row for row in answer_set.values(col_names)], **kwargs)
然后我可以在“ user_id”列上“加入”后续的frames
(针对不同的问题),只要我将其设为数据框的索引即可。
我的问题是答案也被“问题”索引(但正交),结果我只能进入这样的表(由于不切实际地变宽,所以会转置):
answer_fields User1 User2
questionpk 1 1
question__text 'How?' 'How?'
answerfield1 'x' 'x'
answerfield2 'y' 'z'
questionpk 2 2
etc...
我想得到一张这样的桌子:
table User User
question question_text 1 2
1 'How?' field1 'x' 'x'
field2 'y' 'z'
但是据我所知,这需要在问题维度上使用MultiIndex,将“用户”列为“用户”,如果我关心按人口统计来组织用户,我认为我也无法在该维度上使用multiIndex 。我更喜欢这种压缩格式,因为我想提供一种使用分析师用户要分析和比较的列来构建DataFrame的功能(将答案与用户匹配的后续答案进行比较),而question_text作为变量是多余的,它对于报表目的很有用。我想提供一些来自statsmodels和patsy公式的工具,因此简单的列和行名称将很重要。
[[我有一种感觉,foreignKeys之间的某种设置逻辑可以帮助我将其推广到其他应用程序,但是在我认为是一个简单问题的方面做得不好,使我不确定我了解什么表甚至是。]