我试图阅读页面内容并提取一些信息。但有时我会得到像:Aur& amp; eacute; lie(Verschuere)
我已经这样做了:
...
<system.serviceModel>
<bindings>
<wsHttpBinding>
<binding name="e3" messageEncoding="Mtom">
当有UTF-8字符时,它有效。我不能得到可读的文字吗?没有HTML吗?这会更容易。
编辑:它与标记它的人不一样。它确实会使用其他解决方案返回奇怪的字符。
答案 0 :(得分:0)
You could use an html parser to extract meaning. For instance, with HtmlAgilityPack, you could:
HtmlDocument doc=new HtmlDocument();
string html;
using(var wc=new WebClient())
{
html=wc.DownloadString("http://www.bbc.co.uk/news");
}
doc.LoadHtml(html);
doc.DocumentNode.Element("html").Element("body").InnerText