我有一个数据框,该数据框具有按顺序重复值的行。
例如:
df_raw
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14....
220 450 451 456 470 224 220 223 221 340 224 220 223 221 340.....
234 333 453 460 551 226 212 115 117 315 226 212 115 117 315.....
在该示例中,您看到列0-6
是唯一,然后我们从列[220 223 221 340 224]
到row 1
重复了6-10
和{然后再次从11-14
。
此模式与row 2
相同。
我想删除我的数据帧每一行的重复序列(不止2个),以获得如下输出:
df_clean
0 1 2 3 4 5 6 7 8 9.....
220 450 451 456 470 224 220 223 221 340.....
234 333 453 460 551 226 212 115 117 315.....
我使用......
进行尾随,因为列很长,并且每一行都有多个重复。我也不能假设每一行都具有完全相同数量的重复序列,也不能假设每个序列都以完全相同的索引开始或以相同的索引结束。
是否有一种简便的方法可以使用pandas
甚至是一个numpy数组?