清理中文文本数据

时间:2019-08-06 19:03:47

标签: regex text cjk

我有一个中文文本语料库。除了中文字符,它还具有

1)英文字符

2)类似空格的字符

3)中文标点符号,例如。、、、等

4)个数字,例如1.23

我想保留所有中文字符和4),删除1)-3)。有任何方便的工具/代码可以实现这一目标吗?

0 个答案:

没有答案