我有一个CSV文件,其中包含用户以及他们的问题和答案,这些信息用于预先筛选工作申请中的问题。在某些情况下,给定问题可以有多个答案。以下是CSV当前的外观:
User,RequisitionID,Question,Answer
user1,190004116,6162,7296
user2,190004086,6115,7260
user2,190004086,6117,7264
user2,190004086,6117,7265
user2,190004086,6117,7268
user2,190004086,6117,7269
user3,190005321,6321,4221
user3,190005321,6321,4322
我希望采用上面的格式,而不是上面的格式,按照用户,RequisitionID和Question分组,在单独的列(每个问题有不同答案的列数)中表示Answer数据,如下所示:
User,RequisitionID,Question,Answer1,Answer2,Answer3,Answer4
user1,190004116,6162,7296,,,
user2,190004086,6115,7260,,,
user2,190004086,6117,7264,7265,7268,7269
user3,190005321,6321,4221,4321,
我尝试如下使用“ groupby”,但是我无法以所需的形状获得结果数据框...
reqPrscrAnsFileFiltered = reqPrscrAnsFileFiltered.groupby(['User','RequisitionID','Question']).Answer.apply(list)
reqPrscrAnsFileFiltered = pandas.DataFrame(reqPrscrAnsFileFiltered.tolist(), index=reqPrscrAnsFileFiltered.index)
对不起,但是我是Python和Pandas的新手,所以任何帮助都会很棒。
嗯-我们到了。我实现了您在注释中提供的pivot_table代码片段,但是恐怕我不确定您对折叠Multiindex的含义。如果不这样做,Dataframe的输出如下:
Answer,Answer,Answer,Answer
1,2,3,4
7296.0,,,
7260.0,,,
7264.0,7265.0,7268.0,7269.0
4221.0,4322.0,,
您能帮助我了解如何使它看起来像我的帖子中上面的期望输出吗?具体来说,我想删除答案索引号为(1,2,3,4)的行,然后将其添加到答案列左侧的User,RequisitionID和Question缺失列中。抱歉,如果这是基本内容...