如何采取mojibake并弄清楚原始字符集是什么?

时间:2017-04-15 14:48:14

标签: encoding utf-8 mojibake

我有一些有效的UTF-8数据。但是,它的一部分虽然仍然是有效的UTF-8,但显然不是UTF-8。它们也不是UTF-8编码的Latin-1。

我如何弄清楚这些部分的原始字符集是什么,以便我可以恢复有用的信息?或者我应该简单地将它们丢弃为损坏的?

1 个答案:

答案 0 :(得分:1)

那里有mojibake转换器。一个开源选项是https://github.com/dekellum/mojibake

gem install mojibake
require 'mojibake'
mapper = MojiBake::Mapper.new
mapper.recover( '“quotedâ€�' ) #=> '“quoted”'