Question

我正在使用案例数据CSV文件。我遇到了一个问题，其中一个名为case_number的列有多个案例编号重复。有没有办法删除重复项而不会丢失任何与将被删除的行相关的信息。

换句话说，将所有信息合并到分配给case_number的一个单元格中。

Here is an image of the CSV

Answer 1

您应该使用pd.read_csv('filename.csv')来创建数据框架，但是对于这个简化的示例，我只需要在字典中创建一个：

import pandas as pd
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']})
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index()

输出：

   x           y
0  1  a, b, c, e
1  2     d, f, g

将', '替换为字符串之间所需的任何分隔符。

处理重复的Python

1 个答案: