在python中将任何编码转换为utf8?

时间:2011-08-07 11:22:30

标签: python unicode encoding utf-8 character-encoding

我正在抓取来自不同网站的网页,并且它们有各种各样的编码。我得到的编码样本是 -

  • 中文
  • TIS-620
  • UTF-16LE
  • SHIFT_JIS
  • EUC-JP
  • MacCyrillic
  • KOI8-R

除了更常见的编码。我可以通过使用上面的编码解码来获得网页的unicode源。

我的问题是:我想将所有文件存储为utf8。如果我使用utf8对unicode源进行编码,它是否适用于所有网页? utf8是否支持所有unicode代码点?

2 个答案:

答案 0 :(得分:4)

是的,UTF-8只不过是一种以字节存储整数的方案,其方式是较小的整数占用较少的字节。结果是小于128的值存储在一个字节中,因此ASCII仍然是ASCII。 UTF-8可以代表所有Unicode代码点。

答案 1 :(得分:1)

简短又甜蜜,........是的!