是否有任何可靠的方法可以找到指向我们详细新闻页面的链接集合。换句话说,在访问网站的第一页后,我只想要那些引用新闻项目的链接。任何解决方案?
答案 0 :(得分:0)
如果是某个特定网站,您可以尝试获取网站的HTML并使用正则表达式提取新闻文章的链接。只需在HTML中找到您的代码可用于识别链接所在位置的部分。
我这样做了几次从网站上抓取一些信息。
但也许一个显而易见的问题是,网站上没有RSS提要?
答案 1 :(得分:0)
您可以执行简单的WebRequest并下载页面,并在html中搜索要解析的内容。
WebRequest req = WebRequest.Create
("http://www.domain.com/news.html");
req.Proxy = null;
using (WebResponse res = req.GetResponse())
using (Stream s = res.GetResponseStream())
using (StreamReader sr = new StreamReader(s))
File.WriteAllText("news.html", sr.ReadToEnd());
//search through html page for news content.
System.Diagnostics.Process.Start("news.html");