从Python中的字符串中删除非字母数字的unicode字符

时间:2019-07-18 02:49:10

标签: python utf-8 ascii

如何转换此字符串:

"\xa0かかわらず"

要输入此字符串吗?:

"かかわらず"

即如何删除非字母数字的Unicode字符?我尝试过将字符串编码为ascii的解决方案,但不适用于日语符号。

1 个答案:

答案 0 :(得分:0)

使用 re.sub 用空字符串替换 \W(非单词)模式应该可以工作,例如

re.sub(r'\W', '', "\x0aかか\x0aわらず")

– metatoaster 2019 年 7 月 18 日 2:59

这有效。由于 metatoaster 只是将其写为评论而不是每个人都阅读它们,因此我可以随意将其写为实际答案...