我有一个相关矩阵,我将其放在数据框中,如下所示:
row | var1 | var2 | cor
1 | A | B | 0.6
2 | B | A | 0.6
3 | A | C | 0.4
4 | C | A | 0.4
这些结果分别复制到两行中,并同时包含“ var1”和“ var2”的两种组合。我只需要一个,最好先使用较低的变量(例如第1行和第3行)。
我已经和dplyr玩了两个小时,并且正在阅读旧线程,但是找不到我需要的东西。
# get correlation of every concept versus every concept
data.cor <- data.jobs %>%
select(-y,-X) %>%
as.matrix %>%
cor %>%
as.data.frame %>%
rownames_to_column(var = 'var1') %>%
gather(var2, value, -var1)
我希望输出看起来像这样:
row | var1 | var2 | cor
1 | A | B | 0.6
3 | A | C | 0.4
我试图做到这一点而不求助于循环。
答案 0 :(得分:2)
这是tidyverse
的一种方式-
dat2 <- dat %>%
filter(!duplicated(paste0(pmax(var1, var2), pmin(var1, var2))))
# A tibble: 2 x 3
var1 var2 cor
<chr> <chr> <dbl>
1 A B 0.600
2 A C 0.400
数据-
dat <- data_frame(
var1 = LETTERS[c(1,2,1,3)],
var2 = LETTERS[c(2,1,3,1)],
cor = c(0.6,0.6,0.4,0.4))
注意:感谢@tmfmnk清理逻辑
答案 1 :(得分:1)
使用tidyverse
的解决方案。
library(tidyverse)
dat2 <- dat %>%
mutate(Var = map2_chr(var1, var2, ~toString(sort(c(.x, .y))))) %>%
distinct(Var, .keep_all = TRUE) %>%
select(-Var)
dat2
# row var1 var2 cor
# 1 1 A B 0.6
# 2 3 A C 0.4
数据
dat <- read.table(text = "row | var1 | var2 | cor
1 | A | B | 0.6
2 | B | A | 0.6
3 | A | C | 0.4
4 | C | A | 0.4",
sep = "|", stringsAsFactors = FALSE, header = TRUE, strip.white = TRUE)
答案 2 :(得分:1)
一种解决方案是对var1和var2进行排序(顺序为字母顺序),然后使用唯一。我出于方便起见使用data.table进行了此操作,但是使用dplyr可以完成此操作。
library(data.table)
dt = data.table(var1 = c("A", "B", "A", "C"), var2 = c("B", "A", "C", "A"), cor = c(0.6 ,0.6, 0.4, 0.4))
dt[, var1_alt := min(var1, var2), by = 1:nrow(dt)]
dt[, var2_alt := max(var1, var2), by = 1:nrow(dt)]
dt = unique(dt[, .(var1 = var1_alt, var2 = var2_alt, cor)])
答案 3 :(得分:1)
dplyr
的可能性可能是:
df %>%
group_by(grp = paste0(pmin(var1, var2), pmax(var1, var2))) %>%
slice(1) %>%
ungroup() %>%
select(-grp)
row var1 var2 cor
<int> <chr> <chr> <dbl>
1 1 A B 0.6
2 3 A C 0.4
或者:
df %>%
group_by(grp = paste0(pmin(var1, var2), pmax(var1, var2))) %>%
filter(row_number() == min(row_number())) %>%
ungroup() %>%
select(-grp)
或者:
df %>%
group_by(grp = paste0(pmin(var1, var2), pmax(var1, var2))) %>%
summarise_all(list(first)) %>%
ungroup() %>%
select(-grp)
答案 4 :(得分:0)
这是另一个tidyverse
partial 解决方案,因为我删除了行列:
library(tidyverse)
data.cor <-
read.table(
h = T,
sep = "|",
stringsAsFactors = F,
text = "row | var1 | var2 | cor
1 | A | B | 0.6
2 | B | A | 0.6
3 | A | C | 0.4
4 | C | A | 0.4"
) %>%
mutate_if(is.character, ~ trimws(.))
data.cor
#> row var1 var2 cor
#> 1 1 A B 0.6
#> 2 2 B A 0.6
#> 3 3 A C 0.4
#> 4 4 C A 0.4
df <- data.cor %>%
gather(var, val, var1:var2) %>%
distinct(cor, val) %>%
group_by(cor) %>%
mutate(x = paste("var", 1:n(), sep = "")) %>%
spread(x, val) %>%
ungroup()
df
#> # A tibble: 2 x 3
#> cor var1 var2
#> <dbl> <chr> <chr>
#> 1 0.4 A C
#> 2 0.6 A B
由reprex package(v0.2.1)于2019-04-18创建