我想从网站列表中提取域名和路径。例如,如果网站为http://www.domain.com/path1/page1.html,我希望获得http://www.domain.com/path1/,如果网站为http://www.domain2.com/path2/page2/,我希望获得http://www.domain2.com/path2/。
我尝试下载页面并检索所有锚点,但我只能获取文件的相对路径(在这种情况下为/page1.html和/ page2 /)。我有办法实现我的目标吗?
答案 0 :(得分:0)
path2不是所有网址中始终存在的内容。所以你不会得到一个现成的方法来解析它。 我建议为此编写一个函数 非常粗略地说,给你一个想法:
var index = url.IndexOf(".com/");
var substringAfterFirstSlash = url.SubString(index, url.Length + 1 - index)
var indexOfSecondSlash = substringAfterFirstSlash.IndexOf("/") + index;
var yourPath = url.SubString(0, indexOfSecondSlash+1 );