目前我正在开发一个将.msg文件转换为pdf的应用程序。我正在使用pdf转换器将html转换为pdf文件。所以,我将电子邮件转换为html,然后使用该工具将其转换为pdf。在我尝试将法语电子邮件转换为pdf之前,一切正常。当我用notepad ++打开法语电子邮件的.htm文件时,它会显示法语口音字母(é,à,ù,ê,ë,....),但是当我在浏览器中打开它时,法语口音字母更改为一些奇怪的符号。当我向html添加“meta http-equiv =”content-type“content =”text / html; charset = utf-8“标签时,它开始正确显示法语字母。 那么,这个“meta”标签是否会使html适用于所有可能的法语字母。或者只有选择性的字母? 还有什么标签可以使html接受任何语言的字母? 提前谢谢。
答案 0 :(得分:2)
计算机处理二进制数据。在引擎盖下,就计算机而言,HTML(或其他类型的文本)文档中的所有字符(字母,数字,标点符号等)只是1和0的组。
1和0组所代表的字符取决于字符编码的选择。
Unicode编码,包括UTF-8,几乎可以代表任何人类语言。
如果文档实际上是以UTF-8编码的,并且您告诉浏览器它然后以UTF-8编码,那么您很可能遇到无法表示的字符。
如需进一步阅读,请从Character encodings: Essential concepts
开始答案 1 :(得分:1)
UTF-8(Unicode)几乎涵盖了世界上所有的字符和符号。
要正确显示HTML页面,Web浏览器必须知道页面中使用的字符集。
这在<meta>
标记中指定:
对于HTML4:
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
对于HTML5:<meta charset="UTF-8">
注意:如果浏览器在网页中检测到ISO-8859-1,则默认为ANSI,因为ANSI与ISO-8859-1相同,只是ANSI有32个额外字符。 / p>
您可以获得更多信息here。