我正在尝试提取HTML文档中所有href
个链接的列表,然后这些链接将被输入System.Net.HttpWebRequest以获取这些页面的HTML文档。基本上是一个爬虫。
我使用RegEx从页面中提取链接列表:href="(.*?)"
当从页面中提取的链接不是严格的“http://www.example.com”并且我从HTML文档中提取的各种类型的链接看起来像这样时出现问题:(虚构的例子)
我需要一种方法来规范化所有这些不同类型的链接,我将这些链接转换为HttpWebRequest接受的格式。
我一直在寻找最近3天没有太多运气。