我有一个UTF-8十六进制字符串,如下所示:
s
我想将其转换为实际的UTF-8字符串。它应该是:
您的信用额度已低于5美元。如果您有附加组件或奖励,您的资源将一直有效,直到用尽为止。现在请访问vodafone.co.nz/topup
这有效:
s.scan(/.{4}/).map { |a| [a.hex].pack('U') }.join
但我想知道是否有更好的方法:我是否应该使用Encoding#convert。
答案 0 :(得分:4)
额外00
表示该字符串实际上是UTF-16字符串的十六进制表示,而不是UTF-8。假设您需要执行以获取UTF-8字符串的步骤首先将字符串转换为十六进制数字表示的实际字节(Array#pack
可用于此),其次将其标记为使用force_encoding
(看起来像UTF-16BE)进行适当的编码,最后使用encode
将其转换为UTF-8:
[s].pack('H*').force_encoding('utf-16be').encode('utf-8')
答案 1 :(得分:1)
我认为字符串中有额外的空字符(它有效,但很浪费),但您可以尝试:
[s].pack('H*').force_encoding('utf-8')
虽然,似乎"您的信用额度已低于5美元" ...
字符串打印puts
,但是当转换字符串时,我无法读取终端上的所有unicode字符。
答案 2 :(得分:1)
如果您打算在其他奇怪编码的字符串上使用它,您可以取消填充前导字节:
[s.gsub(/..(..)/,'\1')].pack('H*')
或者使用它们:
s.gsub(/..../){|p|p.hex.chr}
如果你想使用Encoding :: Converter
ec = Encoding::Converter.new('UTF-16BE','UTF-8') # save converter for reuse
ec.convert( [s].pack('H*') ) # or: ec.convert [s].pack'H*'