我使用asp.NET webform应用程序创建一个网站,获取新闻网站RSS的URL并检查它们Tandem以查找新消息并保存标题,新闻网址,描述到数据库... 现在我想在数据库中保存Deatails。 但任何网络代理商都不能在RSS中保存deatalis。 我可以在Rss中找到新闻描述,然后我想在新闻页面中找到Deatails。像Crawler这样的东西。 所以我在RSS中找到描述:
并希望在页面中找到deatails:
所以我需要回答2个问题: 1-如何找到包含URL的网页来源? 2-如何从中删除HTML标记并查找deatails? 你知道这个吗? 感谢
答案 0 :(得分:1)
从网站获取HTML代码。你可以使用这样的代码。
using System.Net;
using (WebClient client = new WebClient())
{
string htmlCode = client.DownloadString("http://somesite.com/default.html");
}
然后你可以从这个字符串中找到任何东西
<强>更新强>
从字符串
中删除html标记String result = Regex.Replace(htmlCode, @"<[^>]*>", String.Empty);