标签: regex text cjk
我有一个中文文本语料库。除了中文字符,它还具有
1)英文字符
2)类似空格的字符
3)中文标点符号,例如。、、、等
4)个数字,例如1.23
我想保留所有中文字符和4),删除1)-3)。有任何方便的工具/代码可以实现这一目标吗?