从新闻网站提取新闻链接

时间:2010-05-03 10:44:56

标签: c# information-retrieval html-content-extraction

是否有任何可靠的方法可以找到指向我们详细新闻页面的链接集合。换句话说,在访问网站的第一页后,我只想要那些引用新闻项目的链接。任何解决方案?

2 个答案:

答案 0 :(得分:0)

如果是某个特定网站,您可以尝试获取网站的HTML并使用正则表达式提取新闻文章的链接。只需在HTML中找到您的代码可用于识别链接所在位置的部分。

我这样做了几次从网站上抓取一些信息。

但也许一个显而易见的问题是,网站上没有RSS提要?

答案 1 :(得分:0)

您可以执行简单的WebRequest并下载页面,并在html中搜索要解析的内容。

   WebRequest req = WebRequest.Create
              ("http://www.domain.com/news.html");
    req.Proxy = null;
    using (WebResponse res = req.GetResponse())
    using (Stream s = res.GetResponseStream())
    using (StreamReader sr = new StreamReader(s))
        File.WriteAllText("news.html", sr.ReadToEnd());
    //search through html page for news content.

    System.Diagnostics.Process.Start("news.html");