附上一些R代码:
temp_df <- data.frame(c("A","A","A","G","G","Z","Z"),
c("B","D","E","R","S","Y","U"),
c(1.5,1.1,0.8,0.2,0.8,0.9,0.1),
c(0.8,0.4,1.5,1.2,1.2,0.2,0.3),
c(2.7,2.7,2.7,2.4,2.4,0.5,0.5),
c("YES","NO","NO","NO","NO","YES","YES"))
colnames(temp_df) <- c("PERSON_1","PERSON_2","VALUE_1",
"VALUE_2","TOTAL_2","DECISION_2")
我要做的是根据以下规则创建名为“NEW_DECISION_1”的新列:
对于第1列(“PERSON_1”)中的人,如果第5列(“TOTAL_2”)中相应值的值大于或等于2.0且相应值中至少有一个“是”在第6列(“DECISION_2”)中,“NEW_DECISION_1”列的值将为“YES”,如果不满足这些条件,则它们将获得“NO”值。
因此,对于第1列中的A人,由于第5列中的值为2.7且第6列中的相应值中至少有一个“是”,因此新列中的值将为“是”。 / p>
对于第1列中的G人,由于第5列中的值为2.4,但由于第6列中的相应值中没有“YES”值,因此新列中的值将为“NO”。
对于第1列中的Z人,由于第5列中的值为1.0且第6列中的相应值中至少有一个“是”,因此新列中的值将为“否”。 所以新表将是:
temp_df$NEW_DECISION_1 <- c("YES","YES","YES","NO","NO","NO","NO")
temp_df
我正在考虑某种聚合规则,但我不确定用什么函数来搜索“至少一个”YES“”。
如果您需要更多信息或说明,请告知我们。
答案 0 :(得分:4)
以下是ddply
的解决方案:
library(plyr)
ddply(temp_df, .(PERSON_1), transform,
NEW_DECISION_1 = c("NO", "YES")[(TOTAL_2 >= 2 &
sum(DECISION_2 == "YES") > 0) + 1])
# PERSON_1 PERSON_2 VALUE_1 VALUE_2 TOTAL_2 DECISION_2 NEW_DECISION_1
# 1 A B 1.5 0.8 2.7 YES YES
# 2 A D 1.1 0.4 2.7 NO YES
# 3 A E 0.8 1.5 2.7 NO YES
# 4 G R 0.2 1.2 2.4 NO NO
# 5 G S 0.8 1.2 2.4 NO NO
# 6 Z Y 0.9 0.2 0.5 YES NO
# 7 Z U 0.1 0.3 0.5 YES NO
答案 1 :(得分:4)
以下是基础R解决方案:
result <- by(temp_df,
INDICES=temp_df$PERSON_1,
FUN=function(x)
within(x, DECISION_1 <- ifelse(any(grepl('YES', DECISION_2)) & TOTAL_2 >= 2,
'YES', 'NO')))
do.call(rbind, result)
# PERSON_1 PERSON_2 VALUE_1 VALUE_2 TOTAL_2 DECISION_2 DECISION_1
# A.1 A B 1.5 0.8 2.7 YES YES
# A.2 A D 1.1 0.4 2.7 NO YES
# A.3 A E 0.8 1.5 2.7 NO YES
# G.4 G R 0.2 1.2 2.4 NO NO
# G.5 G S 0.8 1.2 2.4 NO NO
# Z.6 Z Y 0.9 0.2 0.5 YES NO
# Z.7 Z U 0.1 0.3 0.5 YES NO