我有2个数据帧。第一个具有更多的行数和一个ID列“ ALP23456”以及其他相关列。 第二行的行数较少,并且ID值作为注释“ ALP23456在3月26日完成”出现。这是自由文本,无法识别出任何模式。
问题:我想将数据框1的ID列引用到数据框2的文本列中,以从数据框2中获取一些信息。面临问题,因为它不完全匹配。
我想要的解决方案:
答案 0 :(得分:0)
我已经使用正则表达式和两个数据帧的合并,如下所示:
library(stringr)
library(dplyr)
df2$ID <- str_trim(str_extract(df2$Text, pattern = "Q\\S*|A\\S*"))
df <- left_join(df1, df2, by = "ID")