我有一个数据集,其中列的排序毫无意义,但列的组合是有意义的。换句话说,在以下数据框示例中:
| A | B | C | D |
|---------------|
| h | i | j | k |
| k | j | h | k |
其中[A,B,C,D]
是列标题,而[h,i,j,k]
是单元格值 - row 1
和row 2
可视为相同。
我想解决的问题是原则上删除第二行。我熟悉df.delete_duplicates()
的用法,但是这并不认为这两行是等价的。
我认为可能有用的解决方案是按字母顺序对每一行进行排序,但我无法想出一种方法。
非常感谢,
路
答案 0 :(得分:0)
希望值的顺序无关紧要:)
awk -F'4;' '{print $2}' file
;3;MM_;;;;;;;;main