我正在使用案例数据CSV文件。我遇到了一个问题,其中一个名为case_number
的列有多个案例编号重复。有没有办法删除重复项而不会丢失任何与将被删除的行相关的信息。
换句话说,将所有信息合并到分配给case_number
的一个单元格中。
答案 0 :(得分:2)
您应该使用pd.read_csv('filename.csv')
来创建数据框架,但是对于这个简化的示例,我只需要在字典中创建一个:
import pandas as pd
df = pd.DataFrame({'x':[1,1,1,2,1,2,2], 'y':['a','b','c','d','e','f','g']})
df = df.groupby('x')['y'].apply(lambda i: ', '.join(i)).reset_index()
输出:
x y
0 1 a, b, c, e
1 2 d, f, g
将', '
替换为字符串之间所需的任何分隔符。