我的问题是:
我正在将一组HTML从一台机器复制到另一台机器上,并且我将更多信息作为元素添加到目标HTML中。我遇到的问题是源文件编码为许多不同的编码[UTF8,8859-1,GB1232等],元信息存储为UTF-8,因此,当我“dummily”合并我的元时与原始文档的信息,我的元信息[包含国际字符]看起来很奇怪。
那么,是否有一种方法可以使用<META>
和所有HTML文档中的!DOCTYPE标记中定义的HTML编码,除了在TABLE或DIV部分中将使用其他指定的编码?
提前感谢,
埃内斯托
答案 0 :(得分:3)
不,没有。
我建议您使用DOM解析器将各种HTML位读入内存,然后使用UTF-8构建组合文档。一旦这些HTML片段在内存中(解析后),它们将以某种Unicode表示形式(取决于编程语言),因此在此过程中不会丢失任何信息。
答案 1 :(得分:1)
不,您需要使用字符编码,该编码是所使用的编码的并集。因此,在您的情况下,我建议您使用UTF-8来处理所有文档。或者您使用character references而不是普通字符本身,如果它们不能使用文档中使用的编码进行编码。