utf-8如何识别不同的语言特征

时间:2011-12-28 09:33:15

标签: html utf-8

看到utf-8的神奇之处我真的很惊讶但是却无法理解它背后的逻辑。我经历了几个文件,但仍然困惑,虽然我只知道基本的。

请看一下first example。它会转换from language character to utf-8。有两个文本框,在第一个文本框中输入字符,单击按钮并将第二个文本框中的utf-8值设为utf-8

请看一下second example。我使用了utf-8 char from the example 1 and put the value in html,在这里我真的不明白它是如何翻译的。因为我测试了三种语言chinese, Hindi and Russian

used google translator to translate from english to several language
Hello = 您好(chinese)

Hello = नमस्ते (Hindi)

Hello = привет (Russian) 

网页如何根据utf-8识别语言字符?是不是有可能不同的电脑会显示不同的字符?

2 个答案:

答案 0 :(得分:2)

UTF-8背后的“魔力”称为Unicode。它是该标准的几种编码之一。

Unicode确实具有与语言对应的字符范围,并且许多字符与语言特别相关。

我建议您阅读此内容 - The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

答案 1 :(得分:1)

UTF-8是Unicode的可变长度字节编码,Unicode是所有语言的字符编号系统。

默认情况下,Internet网页基于ISO-8859-1,因此称为Latin-1。其他字符集可以通过以下方式设置:

  1. 文本的标题行,在空行之前,然后是HTML内容文本。 标题行:

    Content-Type: text/html; charset=UTF-8
    

    Java EE服务器需要这样做:

     response.setContentType("text/html; charset=UTF-8");
    
  2. 在HTML标题中使用元标记

    <html>
      <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    ...