我正在尝试编写一行代码,这些代码将采用一行日文文本并删除一组特定字符。但是我在正则表达式中使用unicode字符时遇到问题。
我目前正在使用text.gsub(/《.*?》/u, '')
,但我收到错误
'gsub': invalid byte sequence in Windows-31J (Argument error)
有谁能告诉我我做错了什么?
示例文字:その仕草“しぐさ”があまりに无造作“むぞうさ”だったので
预期成果:その仕草があまりに无造作だったので
由于
编辑:# encoding: utf-8
出现在脚本的顶部。
答案 0 :(得分:2)
试试这个:
text.encode('utf-8', 'utf-8').gsub(/《.*?》/u, '')