我正在抓取来自不同网站的网页,并且它们有各种各样的编码。我得到的编码样本是 -
除了更常见的编码。我可以通过使用上面的编码解码来获得网页的unicode源。
我的问题是:我想将所有文件存储为utf8。如果我使用utf8对unicode源进行编码,它是否适用于所有网页? utf8是否支持所有unicode代码点?
答案 0 :(得分:4)
是的,UTF-8只不过是一种以字节存储整数的方案,其方式是较小的整数占用较少的字节。结果是小于128的值存储在一个字节中,因此ASCII仍然是ASCII。 UTF-8可以代表所有Unicode代码点。
答案 1 :(得分:1)
简短又甜蜜,........是的!