我在C#中遇到WebRequest
的问题。这是一个谷歌页面。
标题陈述
text/html; charset=ISO-8859-1
该网站声明
<meta http-equiv=content-type content="text/html; charset=utf-8">
最后,当我使用默认为Encoding.Default
的{{1}}
现在该怎么办?你有任何提示,如何发生这种情况或我如何解决这个问题?
页面的实际编码似乎是UTF-8。至少FF在UTF-8中正确显示,不在Windows-Whatever中,而不是在Latin1中。
网址为this
问题是欧元符号以及所有德国元音。
提前感谢您对这个让我严重疯狂的问题的帮助!
更新:当我通过
输出字符串时System.Text.SBCSCodePageEncoding
一切正常。
所以看起来问题是,调试器没有显示正确的编码,还有正则表达式。
如何告诉C#将RegEx作为UTF-8处理?
答案 0 :(得分:2)
为什么不使用Google Query API?
,而不是解析HTMLBTW,在使用正则表达式解析HTML之前,read this; - )
编辑:回答你的评论:
答案 1 :(得分:1)
刚刚找到解决方案......花了很多时间,但这很有效:
Characters in string changed after downloading HTML from the internet