如何正确获取网站内容?

时间:2015-11-12 10:31:55

标签: c# url

我试图阅读页面内容并提取一些信息。但有时我会得到像:Aur& amp; eacute; lie(Verschuere)

我已经这样做了:

...
<system.serviceModel>
        <bindings>
            <wsHttpBinding>
                <binding name="e3" messageEncoding="Mtom">

当有UTF-8字符时,它有效。我不能得到可读的文字吗?没有HTML吗?这会更容易。

编辑:它与标记它的人不一样。它确实会使用其他解决方案返回奇怪的字符。

1 个答案:

答案 0 :(得分:0)

You could use an html parser to extract meaning. For instance, with HtmlAgilityPack, you could:

HtmlDocument doc=new HtmlDocument();
string html;
using(var wc=new WebClient())
{
    html=wc.DownloadString("http://www.bbc.co.uk/news");
}
doc.LoadHtml(html);
doc.DocumentNode.Element("html").Element("body").InnerText