从iso-8859-1修复保存的UTF-8文档中的字符集编码

时间:2013-11-04 22:28:18

标签: encoding utf-8 character-encoding

我需要你的帮助。

我有一个大型UTF-8 JSON文档,其中一些字符串属性来自ISO-8859-1源。

结果是产生了这个例子:

{
  "id":"3",
  "name_fr":"Algérie",
  "name_en":"Algeria"
};

...

{
  "id":"7",
  "label":"Horizon 2020",
  "link":"http://www.rennes-metropole.fr/developpement-durable/horizon-2020/horizon-2020-l-exposition.html",
  "comment":"<P ALIGN=\"LEFT\">Lââ¬â¢exposition ë Horizon 2020 û est une promenade dans le Pays de Rennes. Dans cette promenade, vous rencontrez huit étapes qui concernent les principales questions à  l&apos;horizon 2020.</P>",
  "illustration_file_id":"0"
},

考虑到这一点,有没有简单的方法来修复我的文件:

  • 此文档差不多500 KB
  • 我不能只找到/替换因为它还包含错误编码的字符,如“«”变成了“â”

我试图在php或javascript中执行此操作,但我对任何解决方案都持开放态度。

非常感谢!

1 个答案:

答案 0 :(得分:0)

发现它!

刚刚将我的JSON文档转换为PHP文件,然后将其包装为:

<?php

$string = <<<EOF
MY huge JSON DOCUMENT
EOF;

echo iconv("UTF-8", "ISO-8859-1", $string);

然后在mamp下运行。

谢谢!