处理重复的Python

时间:2017-03-07 00:42:20

标签: python pandas

我正在使用案例数据CSV文件。我遇到了一个问题,其中一个名为case_number的列有多个案例编号重复。有没有办法删除重复项而不会丢失任何与将被删除的行相关的信息。

换句话说,将所有信息合并到分配给case_number的一个单元格中。

Here is an image of the CSV

1 个答案:

答案 0 :(得分:2)

您应该使用pd.read_csv('filename.csv')来创建数据框架,但是对于这个简化的示例,我只需要在字典中创建一个:

import pandas as pd
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']})
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index()

输出:

   x           y
0  1  a, b, c, e
1  2     d, f, g

', '替换为字符串之间所需的任何分隔符。