当公共变量不完全相似时,我很难理解如何在R中合并两个表。
为提供背景信息,我从Twitter和政府部门下载了两个有关政客的信息资源,并创建了两个不同的数据框架。在第一个数据帧(数据集1)中,我有Twitter上出现的政治人物的名字。但是,我不知道这些政治人物现在是否在起作用。为了发现这一点,我可以使用第二个日期框架。 第二个数据框(数据集2)包含名称和有关正在使用的政治人物的其他信息。 名和姓是两个表中唯一包含的变量。这两个表的行数不同。
问题:
我提供了两个数据集的一部分(从姓氏“ J”到“ M”)的图片,以说明相似值之间的差异或姓氏名的倒置。
如何改进我的代码?
有人可以帮我吗?非常感谢 !
[数据集1的一部分(姓氏从“ J”到“ M”)1} [数据集2的名字部分(姓氏从“ J”到“ M”){{3 }}
答案 0 :(得分:1)
模糊匹配可能是前进的一种方式:
https://cran.r-project.org/web/packages/fuzzyjoin/fuzzyjoin.pdf
此外,清理功能可能会有所帮助(例如,使用toppper
或删除键上的空格)。