Question

我的Windows窗体应用程序托管一个WebBrowser控件，显示一个充满链接的页面。我试图在加载的HtmlDocument中找到所有锚元素并读取它们的href属性，这样我就可以在C＃中提供多文件下载界面。下面是我找到并处理锚元素的函数的简化版本：

public void ListAnchors(string baseUrl, HtmlDocument doc) // doc is retrieved from webBrowser.Document
{
    HtmlElementCollection anchors = doc.GetElementsByTagName("a");
    foreach (HtmlElement el in anchors)
    {
        string href = el.GetAttribute("href");
        Debug.WriteLine("el.Parent.InnerHtml = " + el.Parent.InnerHtml);
        Debug.WriteLine("el.GetAttribute(\"href\") = " + href);
    }
}

锚标记全部被<PRE>标记包围。我从中加载HTML的主机名是网络上的本地计算机（lts930411）。一个条目的源HTML如下所示：

<PRE><A href="/A/a150923a.lts">a150923a.lts</A></PRE>

一个锚元素的上述C＃代码的输出是：

el.Parent.InnerHtml = <A href="/A/a150923a.lts">a150923a.lts</A>

el.GetAttribute("href") = http://lts930411/A/a150923a.lts

为什么el.GetAttribute("href")添加方案和主机名前缀（http://lts930411）而不是从源HTML返回href属性的文字值？我可以指望这种行为吗？这是＆＃34;功能＆＃34;在哪里记录？（我自己在预先添加了基本网址，但这给了我http://lts930411http://lts930411/A/a150923a.lts这样的地址。如果我能找到有希望这种情况发生的文档，我只想要完整的网址就可以了。）

Answer 1

如IHTMLAnchorElement.href文档中所述，相对网址是根据包含a元素的文档的位置解析的。

作为获取未触及的href属性值的选项，您可以使用以下代码：

var expression = "href=\"(.*)\"";
var list = document.GetElementsByTagName("a")
                   .Cast<HtmlElement>()
                   .Where(x => Regex.IsMatch(x.OuterHtml, expression))
                   .Select(x => Regex.Match(x.OuterHtml, expression).Groups[1].Value)
                   .ToList();

上述代码返回文档中所有href标记的未触及a属性值。

Answer 2

试试这段代码：

    foreach (HtmlElement el in anchors)
        {
            string href = System.IO.Path.GetFileName(el.GetAttribute("href"));
            ...
        }

WebBrowser HtmlElement.GetAttribute（＆＃34; href＆＃34;）预先添加主机名

2 个答案: