在Pandas中制表Django数据

时间:2019-05-10 00:59:57

标签: python django pandas

我正在尝试制作报告/分析应用程序。

我想将数据从简单的Django“民意调查”应用程序移至DataFrame进行分析(最初是基本统计信息)。预期的信息量很少,因此我没有针对性能进行优化。

frame = pd.DataFrame.from_records([row for row in answer_set.values(col_names)], **kwargs)

然后我可以在“ user_id”列上“加入”后续的frames(针对不同的问题),只要我将其设为数据框的索引即可。

我的问题是答案也被“问题”索引(但正交),结果我只能进入这样的表(由于不切实际地变宽,所以会转置):

answer_fields User1 User2
questionpk 1 1 question__text 'How?' 'How?' answerfield1 'x' 'x' answerfield2 'y' 'z' questionpk 2 2 etc...

我想得到一张这样的桌子:

table User User question question_text 1 2 1 'How?' field1 'x' 'x' field2 'y' 'z'

但是据我所知,这需要在问题维度上使用MultiIndex,将“用户”列为“用户”,如果我关心按人口统计来组织用户,我认为我也无法在该维度上使用multiIndex 。我更喜欢这种压缩格式,因为我想提供一种使用分析师用户要分析和比较的列来构建DataFrame的功能(将答案与用户匹配的后续答案进行比较),而question_text作为变量是多余的,它对于报表目的很有用。我想提供一些来自statsmodels和patsy公式的工具,因此简单的列和行名称将很重要。

[[我有一种感觉,foreignKeys之间的某种设置逻辑可以帮助我将其推广到其他应用程序,但是在我认为是一个简单问题的方面做得不好,使我不确定我了解什么表甚至是。]

0 个答案:

没有答案