Question

我有一个数据集，其中列的排序毫无意义，但列的组合是有意义的。换句话说，在以下数据框示例中：

| A | B | C | D |
|---------------|
| h | i | j | k |
| k | j | h | k |

其中[A,B,C,D]是列标题，而[h,i,j,k]是单元格值 - row 1和row 2可视为相同。

我想解决的问题是原则上删除第二行。我熟悉df.delete_duplicates()的用法，但是这并不认为这两行是等价的。我认为可能有用的解决方案是按字母顺序对每一行进行排序，但我无法想出一种方法。

非常感谢，

路

Answer 1

希望值的顺序无关紧要：）

awk -F'4;' '{print $2}' file

;3;MM_;;;;;;;;main