Question

数据框的列结构不同。

我遇到的问题有两个：

当前df有重复，我不希望在新数据框中重复。我不能简单地从当前df中删除重复项，因为它们的存在是有原因的。例如，从图像中可以看出，我有几行具有相同的事件编号。我想在新的df中有一行，事件编号仅出现一次。

我设想过类似的事情，但这不起作用：

for x in current_df['Incident Number']: 
    if x in new_df['Incident Number']: 
        pass
    else:
        new_df['Incident Number'].append(x)

例如，对于current_df中的每个事件编号，如果current_df ['治疗名称.1'] =='手动除颤'，则new_df ['Defibrillation'] ==该事件编号为真。

有人知道怎么做吗？

谢谢您的帮助，希望这很清楚！

Answer 1

可以通过从unique事件编号创建数据帧来完成第一部分，如下所示：

new_df = pd.Dataframe(current_df['Incident Number'].unique(), columns=['Incident Number'])

接下来的部分实质上是您如何编写它。这里重要的是要注意使用drop_duplicates来删除重复出现的事件编号。

new_df['Defibrillation'] = current_df.drop_duplicates(subset='Incident Number', ignore_index=True)['Treatment Name.1'] == 'Manual Defibrillation'

new_df现在有两列，一列用于唯一的事件编号，另一列用于与处理名称的值相对应的真值。可以用类似的方式创建更多列。