这可能是一个重复的问题,但我不知道要查找哪些搜索字词,所以如果之前已经被问过,请不要对我很难(我很确定它是这样)。
所以我使用WebClient
类获取网页的源代码并将整个字符串保存在source
变量中:
var client = new WebClient();
client.Headers.Add("user-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705;)");
var data = client.OpenRead(urlAddress);
var reader = new StreamReader(data);
var source = reader.ReadToEnd();
data.Close();
reader.Close();
现在我想处理source
变量中的某些文本范围,尤其是用户发布的消息。现在问题是在网页源“&”中实际上是&
,“'”是’
,引号(“)是–
,“
,”
,谁知道还有什么。
好吧,我可以使用Replace
字符串方法用实际符号替换这些代码,但我想知道是否有办法将所有这些代码转换为实际(预期)符号。是否有一种方法可以做到这一点,或者可能是因特网上的库或某个实用程序类?