应用错误收集

我正在尝试提取HTML文档中所有href个链接的列表，然后这些链接将被输入System.Net.HttpWebRequest以获取这些页面的HTML文档。基本上是一个爬虫。

我使用RegEx从页面中提取链接列表：href="(.*?)"

当从页面中提取的链接不是严格的“http://www.example.com”并且我从HTML文档中提取的各种类型的链接看起来像这样时出现问题:(虚构的例子）

我需要一种方法来规范化所有这些不同类型的链接，我将这些链接转换为HttpWebRequest接受的格式。

我一直在寻找最近3天没有太多运气。