我有两个df
我想merge
。
df1
看起来像这样:
CODE TAX PRICE TOTAL
4577 0.9 99.1 100
8965 NA 25 25
7788 1.5 13.5 15
4021 NA 20 20
6987 0.00 40 40
df1
是dataframe
,其中包含代码,取决于价格的税收成本以及税收+价格的总和。
df2
看起来像这样:
CODE TAX.CLASS MEANING
4577 CLASS1 Car
4577 CLASS2 Car
8965 CLASS1 Internet
2635 CLASS1 Computer
7788 CLASS1 Phone
7788 CLASS2 Phone
1258 CLASS1 Water
4021 CLASS1 Food
6987 CLASS1 Gasoline
6987 CLASS2 Gasoline
其中每个code
显示一个tax.class
和meaning
。
我想要这样的输出:
CODE MEANING TAX.CLASS TAX PRICE TOTAL
4577 Car CLASS2 0.9 99.1 100
8965 Internet CLASS1 NA 25 25
7788 Phone CLASS2 1.5 13.5 15
4021 Food CLASS1 NA 20 20
6987 Gasoline CLASS1 0.00 40 40
到目前为止,我已经尝试了以下问题的答案:
但是它没有按照我的要求工作。问题基本上是{{1}中的每个match
中的code
和df1
中的code
,但是如果存在df2
则检索CLASS1
或NA
中的TAX
值,另一方面,如果df1 <= 0.00
的{{1}}中有一个CLASS2
值重复两次,则检索TAX
有什么建议吗?
最好是df1 > 0.00
。
答案 0 :(得分:2)
您可以这样做:
df1$TAX.CLASS<- ifelse(is.na(df1$TAX) | df1$TAX <= 0.00, "CLASS1", "CLASS2")
df_final <- merge(df1, df2, by = c("CODE", "TAX.CLASS"), all.x = TRUE)
输出:
CODE TAX.CLASS TAX PRICE TOTAL MEANING
1: 4021 CLASS1 NA 20.0 20 Food
2: 4577 CLASS2 0.9 99.1 100 Car
3: 6987 CLASS1 0.0 40.0 40 Gasoline
4: 7788 CLASS2 1.5 13.5 15 Phone
5: 8965 CLASS1 NA 25.0 25 Internet
这是base
中的解决方案,但是相同的逻辑可以应用于任何程序包。
请注意,您也可以在第一条语句中使用with
以避免引用数据框:
df1$TAX.CLASS<- with(df1, ifelse(is.na(TAX) | TAX <= 0.00, "CLASS1", "CLASS2"))
答案 1 :(得分:1)
使用dplyr
,我们可以在df1
中创建一个TAX.CLASS,然后在left_join
中创建。
df1 %>% dplyr::mutate(TAX.CLASS=ifelse(TAX<=0 | is.na(TAX),"CLASS1","CLASS2")) %>%
dplyr::left_join(df2, by=c("CODE","TAX.CLASS"))
CODE TAX PRICE TOTAL TAX.CLASS MEANING
1 4577 0.9 99.1 100 CLASS2 Car
2 8965 NA 25.0 25 CLASS1 Internet
3 7788 1.5 13.5 15 CLASS2 Phone
4 4021 NA 20.0 20 CLASS1 Food
5 6987 0.0 40.0 40 CLASS1 Gasoline