我有两个数据集df_2010和df_2013。 df_2010提供了2010年的数据,而df_2013提供了相同的数据但已更新到2013年(只有df_2010的列不在df_2013中)。
head(df_2010)
ID village surveyor age school salary job_type rich
1 1 Ara 2 40 5 413 0 1
2 2 Buxar 1 35 4 618 0 1
3 3 Sasaram 0 26 5 377 0 1
4 4 Bodh Gaya 0 19 2 367 0 1
5 5 Chhapra 3 40 4 265 0 1
6 6 Muzaffarpur 0 22 3 325 0 1
head(df_2013)
ID village surveyor salary job_type
1 1 Ara 2 433.6500 0
2 2 Buxar 1 679.8000 1
3 3 Sasaram 0 395.8500 0
4 4 Bodh Gaya 0 359.6600 1
5 5 Chhapra 3 343.7817 1
6 6 Muzaffarpur 0 318.5000 1
我希望能够合并和追加两个数据集,以便能够比较2010年和2013年之间的变化。
到目前为止,我已经创建了一个新的数据框:
df_new <- dplyr::full_join(df_2010, df_2013, by == "ID", "village")
head(df_new)
ID village surveyor.x age school salary.x job_type.x rich surveyor.y salary.y job_type.y
1 1 Ara 2 40 5 413 0 1 2 433.6500 0
2 2 Buxar 1 35 4 618 0 1 1 679.8000 1
3 3 Sasaram 0 26 5 377 0 1 0 395.8500 0
4 4 Bodh Gaya 0 19 2 367 0 1 0 359.6600 1
5 5 Chhapra 3 40 4 265 0 1 3 343.7817 1
6 6 Muzaffarpur 0 22 3 325 0 1 0 318.5000 1
但是,我希望能够比较column.x和column.y之间的任何更改或任何缺少的值,然后创建一个合并两个日期数据的单列。有什么办法可以简单地做到这一点?
谢谢!