如果我有其他部分,我怎么能分开一部分网站?

时间:2015-01-28 05:07:28

标签: c# html asp.net rss

我使用asp.NET webform应用程序创建一个网站,获取新闻网站RSS的URL并检查它们Tandem以查找新消息并保存标题,新闻网址,描述到数据库... 现在我想在数据库中保存Deatails。 但任何网络代理商都不能在RSS中保存deatalis。 我可以在Rss中找到新闻描述,然后我想在新闻页面中找到Deatails。像Crawler这样的东西。 所以我在RSS中找到描述: enter image description here

并希望在页面中找到deatails:

enter image description here

所以我需要回答2个问题: 1-如何找到包含URL的网页来源? 2-如何从中删除HTML标记并查找deatails? 你知道这个吗? 感谢

1 个答案:

答案 0 :(得分:1)

从网站获取HTML代码。你可以使用这样的代码。

using System.Net;

using (WebClient client = new WebClient())
{
    string htmlCode = client.DownloadString("http://somesite.com/default.html");
}

然后你可以从这个字符串中找到任何东西

<强>更新

从字符串

中删除html标记
String result = Regex.Replace(htmlCode, @"<[^>]*>", String.Empty);