从html(html敏捷包)获取href标签内部文本

时间:2019-09-18 21:44:53

标签: c# asp.net html-parsing html-agility-pack

我已成功从下面html中的所有href标记中提取了文件名,并将其添加到列表中。

HTML:

<ul class="resourcelist">
    <li><a href="/upload/Article/07.pdf" target="_blank"><img src="/assets/images/pdf.png" /> <strong>SPEC SHEET: </strong> d07</a></li>
    <li><a href="/upload/Article/73.pdf" target="_blank"><img src="/assets/images/pdf.png" /> <strong>ASSEMBLY SHEET: </strong> d73</a></li>
    <li><a href="/upload/Article/75.pdf" target="_blank"><img src="/assets/images/pdf.png" /> <strong>ASSEMBLY SHEET: </strong> d75</a></li>
    <li><a href="/upload/Article/71.pdf" target="_blank"><img src="/assets/images/pdf.png" /> <strong>INSTALLATION SHEET: </strong> d71</a></li>
</ul>

C#代码来解析html:

    public List<string> LinksList = new List<string>();
    public List<string> GetLinks()
        {
            var doc = new HtmlDocument();
            doc.LoadHtml(GetProductDescription("TechnicalSpecifications"));
            HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("//a[@href]");
            foreach (var node in nodes)
            {
                var href = node.Attributes["href"].Value.Split('/')[3];
                if (!LinksList.Contains(href))
                {
                    LinksList.Add(href);
                }

            }
            return LinksList;
        }

<strong> +文字的开头到关闭标签之前,是否有可能定位所有内容? (基本上不是<...>中的所有内容)

我已经查看了无数问题,因此似乎没有什么答案。

输出示例:

规格表:d07

谢谢。

1 个答案:

答案 0 :(得分:2)

您实际上只是在收集节点的内部文本。这样做:

count