删除重复行,同时忽略列排序

时间:2017-04-21 11:32:38

标签: python python-3.x pandas jupyter-notebook

我有一个数据集,其中列的排序毫无意义,但列的组合是有意义的。换句话说,在以下数据框示例中:

| A | B | C | D |
|---------------|
| h | i | j | k |
| k | j | h | k |

其中[A,B,C,D]是列标题,而[h,i,j,k]是单元格值 - row 1row 2可视为相同。

我想解决的问题是原则上删除第二行。我熟悉df.delete_duplicates()的用法,但是这并不认为这两行是等价的。 我认为可能有用的解决方案是按字母顺序对每一行进行排序,但我无法想出一种方法。

非常感谢,

1 个答案:

答案 0 :(得分:0)

希望值的顺序无关紧要:)

awk -F'4;' '{print $2}' file

;3;MM_;;;;;;;;main