Question

我有两个数据帧。

a =原始数据集，包含数千个不同天气事件的观测值。 6000障碍。

   STATE       EVTYPE
1     AL WINTER STORM
2     AL      TORNADO
3     AL    TSTM WIND
4     AL    TSTM WIND
5     AL    TSTM WIND
6     AL         HAIL
7     AL    HIGH WIND
8     AL    TSTM WIND
9     AL    TSTM WIND
10    AL    TSTM WIND

b =字典表，其中包含大多数天气事件的标准拼写。 500 obs。

    EVTYPE    evmatch
71         DUST DEVEL DUST DEVIL
72         DUST DEVIL DUST DEVIL
73         DUST DEVIL DUST DEVIL
74         DUST STORM DUST STORM
75        EARLY FROST       <NA>
76         EARLY RAIN       <NA>

两者都被df_new

合并到evtype

library(dplyr)
df_new <- left_join(a, b, by = c("EVTYPE"))
STATE       EVTYPE           evmatch
1     AL WINTER STORM      WINTER STORM
2     AL      TORNADO           TORNADO
3     AL    TSTM WIND THUNDERSTORM WIND
4     AL    TSTM WIND THUNDERSTORM WIND
5     AL    TSTM WIND THUNDERSTORM WIND
6     AL         HAIL              HAIL
7     AL    HIGH WIND         HIGH WIND
8     AL    TSTM WIND THUNDERSTORM WIND
9     AL    TSTM WIND THUNDERSTORM WIND
10    AL    TSTM WIND THUNDERSTORM WIND
11    AL   HEAVY RAIN        HEAVY RAIN
12    AL  FLASH FLOOD       FLASH FLOOD
13    AL    TSTM WIND THUNDERSTORM WIND
14    AL   HEAVY RAIN        HEAVY RAIN
15    AL    TSTM WIND THUNDERSTORM WIND

当我加入这两个时，我最终得到的数据集比原始数据集更多。

即。 a有6000个障碍，df_new有69400.

如何合并两个数据集，以便生成的df与原始数据帧相同。

上下文：

原始数据集针对同一天气事件有多个拼写错误/拼写，即dust devel，dust devil。

为了进行分析，每次观察都需要标准拼写。例如，我无法对dust devil进行分析，因为同一事件的多个观察结果有不同的拼写。

我创建了一个“词典”，其中包含每个事件类型的官方拼写，即dust devel，dust devil dust devil和tstm wind都是{{1} }}

我想在原始数据集上添加一列，显示每个天气事件的正确拼写。

但是，我的结果数据集有额外的行。

Answer 1

您的b表有重复项，请b替换unique(b)，您应该没问题。

df_new <- left_join(a, unique(b))

“左连接”只表示将使用a中的所有行，即使它们在b中没有匹配项也是如此。如果他们在b中有多个匹配项，您将在df_new中获得更多行。

有关详细信息，请参阅此处：

https://stat545-ubc.github.io/bit001_dplyr-cheatsheet.html#left_joinsuperheroes-publishers

合并两个数据帧会在R中创建额外的行

上下文：

1 个答案: