从Word粘贴的字符串的HTML编码

时间:2009-06-09 22:05:03

标签: html unicode utf-8

请参阅http://pilot.whatpub.org/Guide/002000/Pub002687.htm并查看来源。

说明中的文字(“2005年翻新......”)已从Word文档粘贴到System.Web.UI.WebControls.TextBox中,然后以unicode的形式保存到数据库中。

显然IE中有一些非ASCII字符可以解释。

现在,我可以通过System.Web.HttpUtility.HtmlEncode传递字符串,并将“cafe”中的e-acute字符转换为HTML常量。与“£”字符相同(在该示例中没有一个)因此它们看起来很好。

然而,HtmlEncode对“wine”之前的异常引用字符没有做任何事情,所以它仍然显示为那个奇怪的序列。

是否有其他编码功能可以提供帮助?

干杯,罗布。

2 个答案:

答案 0 :(得分:3)

页面在UTF-8中正确提供,但未指定charset编码。添加

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

到&lt; head&gt;&lt; / head&gt;,你会没事的。

BTW,http标头也缺少字符集定义:

$ HEAD http://pilot.whatpub.org/Guide/002000/Pub002687.htm
[...]
Content-Type: text/html
[...]
$

将其更改为

Content-Type: text/html; charset=UTF-8

事情会好起来的。

答案 1 :(得分:1)

我不确定您控制的应用程序的哪个部分。

尝试将Content-Type中的charset设置为某些内容,以使浏览器正确地呈现它们。

Content-Type:text / html;字符集= ISO-8859-1

(顺便说一句,该页面在Firefox中正确呈现。)