Question

这是上一个问题的一个更复杂的例子 - Creating Groups with Dplyr's "group_by" then Using Stringr to Find Differences Between Groups。

如果可能，我想继续使用dplyr和stringr，或者至少留在Tidyverse内。

在这个更复杂的例子中，我再次需要通过CaseWorker和Client对数据进行分组，并比较＆＃34; Task＆＃34;和＆＃34;任务2＆＃34;找到＆＃34; Task2＆＃34;中的所有类别那些不在＆＃34;任务＆＃34;。还有一个＆＃34; Time＆＃34;柱。

＆＃34;任务＆＃34;可以有不属于＆＃34;任务2＆＃34;的类别，所以我只对在＆＃34;任务2＆＃34;中找到类别感兴趣。那些不在＆＃34;任务＆＃34;。能够创建新的列或数据框以显示＆＃34; Task2＆＃34;中的特定条目将会很棒。而不是＆＃34;任务＆＃34;以及相关的＆＃34;时间＆＃34;值。

最终结果应该显示＆＃34;铁衬衫＆＃34;和＆＃34;做作业＆＃34;对于客户＆＃34;克里斯＆＃34;因为这两个类别都不在＆＃34;任务＆＃34;中，并且应该显示总数＆＃34;时间＆＃34;为每个人。

对于客户＆＃34; Eric＆＃34;，它应该显示＆＃34;铁衬衫＆＃34;和＃34;时间＆＃34; 12.。

CaseWorker<-c("John","John","John","John","John","John","John","John",
"John","Kim","Kim")

Client<-c("Chris","Chris","Chris","Chris","Chris","Chris","Chris","Chris","Chris","Eric","Eric")

Task<-c("Feed cat","Feed cat","Feed cat","Make dinner","Make dinner","Make dinner","Buy groceries","Buy groceries","Buy groceries","Do homework","Do homework")

Task2<-c("Feed cat","Iron shirt","Iron shirt","Do Homework","Do homework","Do homework","Make dinner","Feed cat","Feed cat","Do homework","Iron shirt")

Time<-c(20,34,11,10,5,6,55,30,20,10,12)

Df<-data.frame(CaseWorker,Client,Task,Task2,Time)

Answer 1

我们在＆＃39; Task2＆＃39;中获取元素。那些不在任务＆＃39;使用setdiff，paste将toString与paste(..., collapse=', ')（library(dplyr) Df %>% group_by(CaseWorker, Client) %>% summarise(New = toString(setdiff(Task2, Task)))的包装）一起使用，然后按“CaseWorker”进行分组。和＆＃39;客户＆＃39;

sum

如果我们需要filter时间＆＃39;任务2＆＃39;，summarise＆＃39;任务2＆＃39;的子集元素的列。在Df %>% group_by(CaseWorker, Client) %>% filter(Task2 %in% setdiff(Task2, Task)) %>% summarise(New= toString(unique(Task2)), Time = sum(Time)) # CaseWorker Client New Time # <fctr> <fctr> <chr> <dbl> #1 John Chris Iron shirt, Do Homework, Do homework 66 #2 Kim Eric Iron shirt 12步骤之前

unique

任务2＆＃39;中有一些元素。有案例差异。如果需要进行整理，请转换为较低或较高，将paste元素和New= toString(unique(tolower(Task2)))元素合在一起，即summarise步骤中的UPDATE ordered_set SET -- other fields omitted rank = $7 - 0.5 WHERE ordered_set_id = $1 UPDATE ordered_set b SET rank = t.rank FROM ( SELECT ordered_set_id, row_number() OVER(ORDER BY rank) AS rank FROM ordered_set WHERE ordered_set_parent_id = $1 ) t WHERE b.ordered_set_id = t.ordered_set_id;。

第2部分 - 使用Dplyr创建组＆＃34; group_by＆＃34;然后使用Stringr＆＃34; str_detect＆＃34;找出群体之间的差异

1 个答案: