如何在Ruby中使用正则表达式中的unicode字符?

时间:2012-03-05 01:55:27

标签: ruby regex unicode

我正在尝试编写一行代码,这些代码将采用一行日文文本并删除一组特定字符。但是我在正则表达式中使用unicode字符时遇到问题。

我目前正在使用text.gsub(/《.*?》/u, ''),但我收到错误

'gsub': invalid byte sequence in Windows-31J (Argument error)

有谁能告诉我我做错了什么?

示例文字:その仕草“しぐさ”があまりに无造作“むぞうさ”だったので

预期成果:その仕草があまりに无造作だったので

由于

编辑:# encoding: utf-8出现在脚本的顶部。

1 个答案:

答案 0 :(得分:2)

试试这个:

text.encode('utf-8', 'utf-8').gsub(/《.*?》/u, '')