仅包含某些中文字符的行的过滤条件

时间:2019-10-21 04:08:01

标签: r regex tidyverse stringr cjk

假设table_a包含一列约1500个唯一汉字,而table_b包含一列约50,000个唯一汉字组合(多字符短语,句子等不同长度) 。

我希望能够过滤table_b并仅返回其中字符组合 only 包含table_a中字符列中的字符的行。理想情况下,此代码还应该忽略任何字母数字字符和标点符号。

是否有一种方法可以轻松地在R中(最好在基数R中)或使用tidyverse中的函数(dplyr,stringer等)轻松地执行此操作?我曾考虑过使用stringr包和正则表达式,但是我对汉字如何使用它不熟悉。

要稍微简化问题,请考虑以下示例:

list_a <- c("你","好","吗","不")
list_b <- c("你好","你好吗?","我很好","我不好")

从这两个列表中,我想返回list_c,即c("你好","你好吗?")

我认为,为此使用的任何逻辑/功能都将能够在dyplyr的过滤器功能中使用,以实现我的目标。

感谢您的帮助。

0 个答案:

没有答案