Question

我正在尝试编写一行代码，这些代码将采用一行日文文本并删除一组特定字符。但是我在正则表达式中使用unicode字符时遇到问题。

我目前正在使用text.gsub(/《.*?》/u, '')，但我收到错误

'gsub': invalid byte sequence in Windows-31J (Argument error)

有谁能告诉我我做错了什么？

示例文字：その仕草“しぐさ”があまりに无造作“むぞうさ”だったので

预期成果：その仕草があまりに无造作だったので

由于

编辑：# encoding: utf-8出现在脚本的顶部。

Answer 1

试试这个：

text.encode('utf-8', 'utf-8').gsub(/《.*?》/u, '')