屏幕抓取

时间:2010-05-28 11:33:00

标签: c# screen-scraping

我在屏幕上抓一个丹麦语的网站..我无法像某些人那样刮掉某些字符。 有什么想法解决这个问题? 感谢

5 个答案:

答案 0 :(得分:1)

尝试使用UTF-8或Windows-1252字符集。

答案 1 :(得分:0)

如果您使用的是Web浏览器控件,则可以将页面编码设置为可以显示该字符的任何语言。然后只提取页面源。

答案 2 :(得分:0)

我刚使用了System.Web.HttpContext.Current.Server.HtmlDecode() 它有效..

答案 3 :(得分:0)

我使用iso-8859-1进行解码。 HTH

答案 4 :(得分:0)

最好使用与HttpWebResponse对象相同的编码, 以下是适用于所有语言和字符的代码。

        response = (HttpWebResponse)request.GetResponse();
        string Charset = response.CharacterSet;

        Encoding encoding = Encoding.GetEncoding(Charset);

        if (response.StatusCode == HttpStatusCode.OK)
        {
            response_stream = new StreamReader(response.GetResponseStream(), encoding);

            html = response_stream.ReadToEnd();
        }