我们的网站通过HtmlTidy运行用户输入来清理它。显然,这样做也会通过转换变音符号给我们的国际订阅者带来痛苦。是否有任何选项指定HtmlTidy不这样做?
我尝试使用所有可能的选项进行CharacterEncoding,但似乎没有任何工作。
答案 0 :(得分:1)
只需在配置文件中提供输出编码(输入编码是可选的):
input-encoding: win1252
output-encoding: latin1
有关可用编码的概述,请查看output-encoding documentation。
编辑:所以你正在使用.NET bindings。这是完全相同的设置:
Document d = new Document(new FileStream("in.html", FileMode.Open));
d.InputCharacterEncoding = EncodingType.Utf8;
d.OutputCharacterEncoding = EncodingType.Win1252;
d.CleanAndRepair();
d.Save("out.html");
如果设置了正确的编码,您将获得正确的结果,而不会使用ü
等。