错误"没有适用的方法来重新组合'应用于类" c的对象('整数','数字')""

时间:2014-07-24 06:50:19

标签: r dplyr

嗨我是新来的r我有一个问题,即从名为w2的数据框中找到用户(uID)和文章网络(faID)的网络,如

faID      uID
 1        1256
 1        54789
 1        547821
 2        3258
 2        4521
 2        4528
 3        98745
 3        1256
 3        3258
 3        2145

这只是一个例子,我有超过2000篇文章,我希望根据数据框格式的文章在用户之间建立关系,例如 ##第一条##

1258  54789
1258  547821
54789 547821

##类似于第2条##

3258  4521
3258  4528
4528  4521

其他一些信息是

dput(头(W2)) 结构(列表(faID = c(1L,1L,1L,1L,1L,1L),uID = c(20909L,6661L,1591L,28065L,42783L,3113L)),. Name = c(“faID”,“uID “),row.names = C(7L,9L,10L,12L,14L,16L),类= data.frame”)

dim(w2) 
[1] 364323 2

我正在使用志愿者之一建议的代码

错误出现在<<<>>“UseMethod中的错误(”重新组合“):

没有适用于'regroup'的方法应用于类c的对象('整数','数字')“)##

library(dplyr)
edges<-tbl_df(w2) %>% 
group_by(w2$faID) %>% 
do({    
tmp <-combn(sort(.$user),m =2)
data.frame(a=tmp[1,],b=tmp[2,],stringsAsFactors=FALSE )
 })%>%
 ungroup 
}

任何建议都将受到高度赞赏。

1 个答案:

答案 0 :(得分:1)

我想在阅读Assigning names to the list output of dplyr do operation

dplyr中尚未实现此功能

您可以这样做:

library(gsubfn)
library(dplyr)
w2%>% 
group_by(faID) %>%
fn$do2(~combn(.$uID, m=2)) #`do2` from the link

#    $`1`
#      [,1]   [,2]   [,3]
#[1,]  1256   1256  54789
#[2,] 54789 547821 547821

#   $`2`
#      [,1] [,2] [,3]
# [1,] 3258 3258 4521
#[2,] 4521 4528 4528

#  $`3`
#     [,1]  [,2]  [,3] [,4] [,5] [,6]
# [1,] 98745 98745 98745 1256 1256 3258
# [2,]  1256  3258  2145 3258 2145 2145

数据

w2 <- structure(list(faID = c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 3L
), uID = c(1256L, 54789L, 547821L, 3258L, 4521L, 4528L, 98745L, 
1256L, 3258L, 2145L)), .Names = c("faID", "uID"), class = "data.frame", row.names = c(NA, 
-10L))

更新

可以这样做:

res <- w2 %>% 
group_by(faID) %>% 
do({data.frame(
     combN=paste(apply(combn(sort(.$uID), m=2),2,paste,collapse=" "),
    collapse=", "), stringsAsFactors=F)})

res
#   faID                                                               combN
# 1    1                               1256 54789, 1256 547821, 54789 547821
# 2    2                                     3258 4521, 3258 4528, 4521 4528
# 3    3 1256 2145, 1256 3258, 1256 98745, 2145 3258, 2145 98745, 3258 98745

library(data.table)

使用https://gist.github.com/mrdwab/11380733

中的cSplit
cSplit(cSplit(res, "combN", ", ", "long"),"combN", " ")
#     faID combN_1 combN_2
#  1:    1    1256   54789
#  2:    1    1256  547821
#  3:    1   54789  547821
#  4:    2    3258    4521
#  5:    2    3258    4528
#  6:    2    4521    4528
#  7:    3    1256    2145
#  8:    3    1256    3258
#  9:    3    1256   98745
# 10:    3    2145    3258
# 11:    3    2145   98745
# 12:    3    3258   98745