应用错误收集

在一个HTML文档中进行两次编码

时间：2009-09-24 04:50:53

标签： html encoding

我的问题是：

我正在将一组HTML从一台机器复制到另一台机器上，并且我将更多信息作为元素添加到目标HTML中。我遇到的问题是源文件编码为许多不同的编码[UTF8,8859-1，GB1232等]，元信息存储为UTF-8，因此，当我“dummily”合并我的元时与原始文档的信息，我的元信息[包含国际字符]看起来很奇怪。

那么，是否有一种方法可以使用<META>和所有HTML文档中的！DOCTYPE标记中定义的HTML编码，除了在TABLE或DIV部分中将使用其他指定的编码？

提前感谢，

埃内斯托

2 个答案:

答案 0 :(得分：3)

不，没有。

我建议您使用DOM解析器将各种HTML位读入内存，然后使用UTF-8构建组合文档。一旦这些HTML片段在内存中（解析后），它们将以某种Unicode表示形式（取决于编程语言），因此在此过程中不会丢失任何信息。

答案 1 :(得分：1)

不，您需要使用字符编码，该编码是所使用的编码的并集。因此，在您的情况下，我建议您使用UTF-8来处理所有文档。或者您使用character references而不是普通字符本身，如果它们不能使用文档中使用的编码进行编码。