假设table_a
包含一列约1500个唯一汉字,而table_b
包含一列约50,000个唯一汉字组合(多字符短语,句子等不同长度) 。
我希望能够过滤table_b
并仅返回其中字符组合 only 包含table_a
中字符列中的字符的行。理想情况下,此代码还应该忽略任何字母数字字符和标点符号。
是否有一种方法可以轻松地在R中(最好在基数R中)或使用tidyverse中的函数(dplyr,stringer等)轻松地执行此操作?我曾考虑过使用stringr
包和正则表达式,但是我对汉字如何使用它不熟悉。
要稍微简化问题,请考虑以下示例:
list_a <- c("你","好","吗","不")
list_b <- c("你好","你好吗?","我很好","我不好")
从这两个列表中,我想返回list_c
,即c("你好","你好吗?")
。
我认为,为此使用的任何逻辑/功能都将能够在dyplyr的过滤器功能中使用,以实现我的目标。
感谢您的帮助。