Question

我试图阅读页面内容并提取一些信息。但有时我会得到像：Aur＆amp; amp; eacute; lie（Verschuere）

我已经这样做了：

...
<system.serviceModel>
        <bindings>
            <wsHttpBinding>
                <binding name="e3" messageEncoding="Mtom">

当有UTF-8字符时，它有效。我不能得到可读的文字吗？没有HTML吗？这会更容易。

编辑：它与标记它的人不一样。它确实会使用其他解决方案返回奇怪的字符。

Answer 1

You could use an html parser to extract meaning. For instance, with HtmlAgilityPack, you could:

HtmlDocument doc=new HtmlDocument();
string html;
using(var wc=new WebClient())
{
    html=wc.DownloadString("http://www.bbc.co.uk/news");
}
doc.LoadHtml(html);
doc.DocumentNode.Element("html").Element("body").InnerText

如何正确获取网站内容？

1 个答案: