键入Unicode字符的编码或仅复制该字符有什么区别?

时间:2018-07-09 01:08:11

标签: html unicode

例如,如果我想要HTML页面中的项目符号,可以键入package com.example.springin5steps; public class BinarySearchImpl { public int binarySearch(int[] numbers, int numberToSearchFor) { return 3; } } 或仅复制粘贴•。真正的区别是什么?

2 个答案:

答案 0 :(得分:2)

诸如•之类的字符实体引用与文档编码无关。它在源中占用了更多的八位位组(此处为7)。

诸如之类的字符仅适用于在文档中声明的精确编码。它在源中占用较少的八位位组(此处为3,假设使用UTF-8)。

答案 1 :(得分:2)

≺是由7个ASCII字符组成的序列:和号(&),数字符号(#),八个(8),八个({{1} }),两个(8,六个(2),分号(6)。

;是1个单点字符。

那是最明显的区别。

前者不是重点。 HTML浏览器将解析一个字符串,以生成最终的要点,并呈现给用户。每当您查看HTML的源代码时,都将始终查看此ASCII字符串。

后者恰好是您想要的要点字符,并且当您查看时清楚而精确地理解它。

现在,仅使用ASCII字符,因此可以使用纯ASCII或任何兼容的编码对它们所在的文件进行编码。由于ASCII实际上是所有常用编码的事实上的基础,因此这意味着您不必担心文件编码,并且可以很乐意忽略处理文本文件的那部分,并且可能永远不会遇到任何{ {3}}。

但是,≺仅在HTML中是有意义的。。在数据库,纯文本电子邮件或任何其他非HTML情况下,它仅是一串ASCII字符。

另一方面,

≺不是可以用ASCII编码的字符,因此您需要有意识地选择一种可以表示该字符的编码(例如UTF-8),并且需要确保您正在发送正确的元数据以确保客户端也正确解释了编码(HTTP标头,HTML 标签等)。参见issues

但是<meta>在任何上下文中(无论是纯文本形式还是其他形式)都表示,并且不需要专门用HTML解释。

另请参阅UTF-8 all the way through