规范化各种类型的链接(URL)

时间:2018-04-16 07:04:52

标签: c# hyperlink httpwebrequest

我正在尝试提取HTML文档中所有href个链接的列表,然后这些链接将被输入System.Net.HttpWebRequest以获取这些页面的HTML文档。基本上是一个爬虫。

我使用RegEx从页面中提取链接列表:href="(.*?)"

当从页面中提取的链接不是严格的“http://www.example.com”并且我从HTML文档中提取的各种类型的链接看起来像这样时出现问题:(虚构的例子)

我需要一种方法来规范化所有这些不同类型的链接,我将这些链接转换为HttpWebRequest接受的格式。

我一直在寻找最近3天没有太多运气。

0 个答案:

没有答案