我的问题与this非常相似,但在那里找不到答案。
从link,我可以收集HTML支持ISO 8859/1 8位单字节编码图形字符的显示,通过数字表示形式如下:
&32;
for Space。
&33;
。
除非实体名称以#
:
 
for Space将会得到解决。
!
将被解决。
当ISO Latin 1字符实体不遵循相同标准时,为这些字符添加前缀为#
符号的实体名称的原因是什么。
可以推断,HTML解析器将以这样的方式编写,但是要知道为什么首先引入这个标准会很棒。
答案 0 :(得分:1)
parsing section of the HTML 5 specification详细介绍了如何处理这些内容的详细信息。您特别想阅读“consume a character reference”的链接。
HTML 3从未相关,甚至HTML 3.2也被 long 以前取代。在这种情况下,ISO文件也无关紧要。
解析算法之后可能很痛苦(至少需要一些时间来使用),但保证是正确的。