如何从属于同一域的网页获取所有网址

时间:2014-03-20 06:02:15

标签: c# winforms visual-studio-2010 web-scraping

目前我正在使用此代码来获取上述内容:

                     Uri baseUri = new Uri(url);
                    Uri myUri = new Uri(baseUri, strRef);
                    domain = baseUri.Host;

                    Console.WriteLine(myUri.ToString());
                    strRef = myUri.ToString();
                    if (strRef.Contains(domain))
                    {
                     //THIS MEANS IT BELONGS TO SAME DOMAIN...
                    }

但是使用这段代码我有一些问题,比如假设我们有一个主网址= http://www.xxx.co.uk 那么上面的代码还会将 http://www.news.xxx.co.uk 等网址视为外部链接?如果没有人知道更好的解决方案,这是否正确?

1 个答案:

答案 0 :(得分:0)

我认为你走的是正确的道路。但是,要获取后面提到的URL(http://www.news.xxx.co.uk/),你可以像这样快速解决。

domain = baseUri.Host.Replace("www.", string.Empty);

干杯!

投票如果有帮助。