Question

我有一个CSV文件，其中包含用户以及他们的问题和答案，这些信息用于预先筛选工作申请中的问题。在某些情况下，给定问题可以有多个答案。以下是CSV当前的外观：

User,RequisitionID,Question,Answer
user1,190004116,6162,7296
user2,190004086,6115,7260
user2,190004086,6117,7264
user2,190004086,6117,7265
user2,190004086,6117,7268
user2,190004086,6117,7269
user3,190005321,6321,4221
user3,190005321,6321,4322

我希望采用上面的格式，而不是上面的格式，按照用户，RequisitionID和Question分组，在单独的列（每个问题有不同答案的列数）中表示Answer数据，如下所示：

User,RequisitionID,Question,Answer1,Answer2,Answer3,Answer4
user1,190004116,6162,7296,,,
user2,190004086,6115,7260,,,
user2,190004086,6117,7264,7265,7268,7269
user3,190005321,6321,4221,4321,

我尝试如下使用“ groupby”，但是我无法以所需的形状获得结果数据框...

reqPrscrAnsFileFiltered = reqPrscrAnsFileFiltered.groupby(['User','RequisitionID','Question']).Answer.apply(list)
reqPrscrAnsFileFiltered = pandas.DataFrame(reqPrscrAnsFileFiltered.tolist(), index=reqPrscrAnsFileFiltered.index)

对不起，但是我是Python和Pandas的新手，所以任何帮助都会很棒。

嗯-我们到了。我实现了您在注释中提供的pivot_table代码片段，但是恐怕我不确定您对折叠Multiindex的含义。如果不这样做，Dataframe的输出如下：

Answer,Answer,Answer,Answer
1,2,3,4
7296.0,,,
7260.0,,,
7264.0,7265.0,7268.0,7269.0
4221.0,4322.0,,

您能帮助我了解如何使它看起来像我的帖子中上面的期望输出吗？具体来说，我想删除答案索引号为（1,2,3,4）的行，然后将其添加到答案列左侧的User，RequisitionID和Question缺失列中。抱歉，如果这是基本内容...

需要基于列分组将数据框行数据转换为列

0 个答案: