Question

我有一些看起来像这样的数据：

Row  From   To      Value
1    MA1007 MA1007  2
2    MA1007 MA2801  1
3    MA2801 MA1017  1
4    MA1051 MA2066  2
5    MA1051 MA2059  1
6    MA2066 MA1051  2
7    MA2066 MA2066  1

我想删除 From 和 To 列中值相同的所有行。在上面的示例中，这意味着第 1 行和第 7 行将被删除。但是，我还想删除 From 和 To 列中的值组合出现不止一次的所有行（仅保留该行的一个实例）。例如，第 2 行或第 3 行将被删除（它们都包含相同的“MA”代码组合，尽管在不同的列中）。第 4 行或第 6 行也将被删除。如果有任何不同，Value 列对于特定组合也将具有相同的值。例如。第 2 行和第 3 行具有相同的值，第 4 行和第 6 行也是如此。

以下是最终数据的外观：

Row  From   To      Value
2    MA1007 MA2801  1
4    MA1051 MA2066  2
5    MA1051 MA2059  1

关于我应该如何处理这个问题有什么想法吗？谢谢:)

Answer 1

我们可以使用 subset 创建一个表达式，其中 'From' 值不等于 (!=) 'To' 和 (&) 不等于 ({{ 1}}) ! 表示 'From', 'To'，在 duplicated 使用 sort

按行后

pmin/pmax

-输出

subset(df1, From != To & !duplicated(cbind(pmin(From, To), pmax(From, To))))

数据

 Row   From     To Value
2   2 MA1017 MA2801     1
4   4 MA1051 MA2066     2
5   5 MA1051 MA2059     1

Answer 2

使用 igraph + simplify + graph_from_data_frame 的 get.data.frame 选项

merge(
    setNames(get.data.frame(
        simplify(
            graph_from_data_frame(df[-1], directed = FALSE),
            edge.attr.comb = "mean"
        )
    ), names(df)[-1]),
    df
)

给予

    From     To Value Row
1 MA1017 MA2801     1   2
2 MA1051 MA2059     1   5
3 MA1051 MA2066     2   4

R - 删除具有相同值的行和具有相同值组合的行

2 个答案:

数据