Question

我使用asp.NET webform应用程序创建一个网站，获取新闻网站RSS的URL并检查它们Tandem以查找新消息并保存标题，新闻网址，描述到数据库... 现在我想在数据库中保存Deatails。但任何网络代理商都不能在RSS中保存deatalis。我可以在Rss中找到新闻描述，然后我想在新闻页面中找到Deatails。像Crawler这样的东西。所以我在RSS中找到描述： enter image description here

并希望在页面中找到deatails：

enter image description here

所以我需要回答2个问题： 1-如何找到包含URL的网页来源？ 2-如何从中删除HTML标记并查找deatails？你知道这个吗？感谢

Answer 1

从网站获取HTML代码。你可以使用这样的代码。

using System.Net;

using (WebClient client = new WebClient())
{
    string htmlCode = client.DownloadString("http://somesite.com/default.html");
}

然后你可以从这个字符串中找到任何东西

<强>更新

从字符串

中删除html标记

String result = Regex.Replace(htmlCode, @"<[^>]*>", String.Empty);

如果我有其他部分，我怎么能分开一部分网站？

1 个答案: