Elixir将EUC-KR(JP,CH)编码转换为UTF-8

时间:2016-04-03 04:44:20

标签: character-encoding elixir

我正在制作抓取应用。我想解析一些角色。 但有些页面不是UTF-8字符集。

我有页面正文,现在我想用正文字符串做一些工作。 首先,如果页面编码不是UTF-8,我应该将编码转换为UTF-8。

我该怎么办?

1 个答案:

答案 0 :(得分:2)

您可以使用Erlang iconv library进行此类转换。这很简单!

  1. 确保您的系统上已安装iconv
  2. {:iconv, "~> 1.0.0"}添加到deps,将:iconv添加到mix.exs
  3. 中的应用
  4. 使用:iconv.convert("euc-kr", "utf-8", "input")
  5. 转换

    您可以在命令行中找到list of supported encodings on the libiconv page或运行iconv --list