我想问的问题很简单。我有一个HTML文档,它托管在一个webbrowser控件中。
现在,当我使用MSHTML范围属性选择韩语单词时,我能够得到
range.htmlText
和range.Text
。他们都显示韩语单词。我想要做的就是将其转换为unicode格式。
有可能吗?
仅供参考我使用C#WinForms进行所有这些操作。
答案 0 :(得分:1)
您能提供更多信息吗?阅读时“韩语单词”的格式是什么? (我假设与HTML文档标题相同。)您是否可以发布您尝试阅读的示例HTML页面?
如果问题是你得到的字符串只是在不同的代码页中,你可以使用.Net中的编码类来转换它。例如,您的文本可能是iso-2022-kr。下面是一个转换字符串的示例,在下面的代码中称为“stringInKoreanIsoEncoding”:
Encoding koreanEncoding = Encoding.GetEncoding(50225); // 50225 is the code page for iso-2022-kr
byte[] convertedToUtf8 = Encoding.Convert(koreanEncoding, Encoding.UTF8, koreanEncoding.GetBytes(stringInKoreanIsoEncoding));
string utf8String = Encoding.UTF8.GetString(convertedToUtf8);