应用错误收集

如何过滤中文（仅限中文）

时间：2011-08-02 10:02:07

标签： python

我想将包含一些标点符号和全角符号的文本转换为纯中文文本。

maybe_re = re.compile("xxxxxxxxxxxxxxxxx") #TODO
print "".join(maybe_re.findall("你好,这只是一些中文文本.．，．，全角"))

# I want out
你好这只是一些中文文本全角

2 个答案:

答案 0 :(得分：4)

Zhon图书馆为您提供了中文标点符号列表：https://pypi.python.org/pypi/zhon

str = re.sub('[%s]' % zhon.unicode.PUNCTUATION, "", "你好,这只是一些中文文本.．，．，全角")

这几乎你想要什么。不完全是，因为您提供的句子包含一些非标准的标点符号，例如“。”。无论如何，我认为Zhon可能对其他有类似问题的人有用。

答案 1 :(得分：3)

我不知道将汉字与其他字母分开的好方法，但你可以将字母与其他字符区分开来。使用正则表达式，您可以使用r"\w"（如果您使用的是Python 2，则使用re.UNICODE标志编译）。这将包括数字和字母，但不包括标点符号。

unicodedata.category(c)会告诉你c是什么类型的角色。你的中文字母是“Lo”（没有大小写的字母），而标点符号是“Po”。

相关问题

在java中只拆分中文字符

如何过滤中文（仅限中文）

如何在javascript中使用正则表达式过滤汉字

eZPublish＆amp; Twig trans filter：中文翻译

显示作为中国字体的Angularjs uigrid过滤器按钮

SQL Server过滤内容中文vs英文

如何只在oracle中过滤中文（特殊字符集）？

如何在Excel中分离/过滤英文文本和中文

如何在Ms访问中过滤货币中文字符

如何在Scala / Java中过滤中文标点符号？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？