Question

假设table_a包含一列约1500个唯一汉字，而table_b包含一列约50,000个唯一汉字组合（多字符短语，句子等不同长度）。

我希望能够过滤table_b并仅返回其中字符组合 only 包含table_a中字符列中的字符的行。理想情况下，此代码还应该忽略任何字母数字字符和标点符号。

是否有一种方法可以轻松地在R中（最好在基数R中）或使用tidyverse中的函数（dplyr，stringer等）轻松地执行此操作？我曾考虑过使用stringr包和正则表达式，但是我对汉字如何使用它不熟悉。

要稍微简化问题，请考虑以下示例：

list_a <- c("你","好","吗","不")
list_b <- c("你好","你好吗？","我很好","我不好")

从这两个列表中，我想返回list_c，即c("你好","你好吗？")。

我认为，为此使用的任何逻辑/功能都将能够在dyplyr的过滤器功能中使用，以实现我的目标。

感谢您的帮助。