我的最终正则表达式字符串：

Question

我需要一个正则表达式模式来查找HTML中的网页链接。

我首先使用@"(<a.*?>.*?</a>)"提取链接（<a>），但我无法从中获取href。

我的字符串是：

<a href="www.example.com/page.php?id=xxxx&name=yyyy" ....></a>
<a href="http://www.example.com/page.php?id=xxxx&name=yyyy" ....></a>
<a href="https://www.example.com/page.php?id=xxxx&name=yyyy" ....></a>
<a href="www.example.com/page.php/404" ....></a>

1,2和3是有效的，我需要它们，但是4号对我无效（?和=是必不可少的）

谢谢大家，但我不需要解析<a>。我有一个href="abcdef"格式的链接列表。

我需要抓取href个链接并对其进行过滤，我最喜欢的网址必须包含?和=，例如page.php?id=5

谢谢！

Answer 1

我建议在正则表达式上使用HTML解析器，但这里仍然是一个正则表达式，它将在每个链接的href属性的值上创建一个捕获组。它将匹配是使用双引号还是单引号。

<a\s+(?:[^>]*?\s+)?href=(["'])(.*?)\1

您可以在here查看此正则表达式的完整说明。

Snippet playground：

let rx = /<a\s+(?:[^>]*?\s+)?href=(["'])(.*?)\1/,
    textToMatchInput = document.querySelector('[name=textToMatch]');

document.querySelector('button').addEventListener('click', function () {
  console.log(textToMatchInput.value.match(rx));
});

<label>
  Text to match:
  <input type="text" name="textToMatch" value='<a href="google.com"'>
  
  <button>Match</button>
 </label>

Answer 2

建议不要使用regex解析html

regex用于定期发生的模式。html与其格式不一致（xhtml除外）。例如html文件即使你不要拥有closing tag！这可能会破坏您的代码。

使用像htmlagilitypack

这样的html解析器

您可以使用此代码使用href's

检索锚标记中的所有HtmlAgilityPack

HtmlDocument doc = new HtmlDocument();
doc.Load(yourStream);

var hrefList = doc.DocumentNode.SelectNodes("//a")
                  .Select(p => p.GetAttributeValue("href", "not found"))
                  .ToList();

hrefList包含所有href的

Answer 3

试试这个：

 public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
        }

        private void Form1_Load(object sender, EventArgs e)
        {
            var res = Find(html);
        }

        public static List<LinkItem> Find(string file)
        {
            List<LinkItem> list = new List<LinkItem>();

            // 1.
            // Find all matches in file.
            MatchCollection m1 = Regex.Matches(file, @"(<a.*?>.*?</a>)",
                RegexOptions.Singleline);

            // 2.
            // Loop over each match.
            foreach (Match m in m1)
            {
                string value = m.Groups[1].Value;
                LinkItem i = new LinkItem();

                // 3.
                // Get href attribute.
                Match m2 = Regex.Match(value, @"href=\""(.*?)\""",
                RegexOptions.Singleline);
                if (m2.Success)
                {
                    i.Href = m2.Groups[1].Value;
                }

                // 4.
                // Remove inner tags from text.
                string t = Regex.Replace(value, @"\s*<.*?>\s*", "",
                RegexOptions.Singleline);
                i.Text = t;

                list.Add(i);
            }
            return list;
        }

        public struct LinkItem
        {
            public string Href;
            public string Text;

            public override string ToString()
            {
                return Href + "\n\t" + Text;
            }
        }

    }

<强>输入：

  string html = "<a href=\"www.aaa.xx/xx.zz?id=xxxx&name=xxxx\" ....></a> 2.<a href=\"http://www.aaa.xx/xx.zz?id=xxxx&name=xxxx\" ....></a> ";

<强>结果：

[0] = {www.aaa.xx/xx.zz?id=xxxx&name=xxxx}
[1] = {http://www.aaa.xx/xx.zz?id=xxxx&name=xxxx}

C# Scraping HTML Links

Scraping HTML提取重要的页面元素。它有许多合法用途适用于网站管理员和ASP.NET开发人员。使用正则表达式和 WebClient，我们实现HTML的屏幕抓取。

被修改

另一种简单方法：您可以使用web browser控件从标记href获取a，如下所示:(请参阅我的示例）

 public Form1()
        {
            InitializeComponent();
            webBrowser1.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(webBrowser1_DocumentCompleted);
        }

        private void Form1_Load(object sender, EventArgs e)
        {
            webBrowser1.DocumentText = "<a href=\"www.aaa.xx/xx.zz?id=xxxx&name=xxxx\" ....></a><a href=\"http://www.aaa.xx/xx.zz?id=xxxx&name=xxxx\" ....></a><a href=\"https://www.aaa.xx/xx.zz?id=xxxx&name=xxxx\" ....></a><a href=\"www.aaa.xx/xx.zz/xxx\" ....></a>";
        }

        void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
        {
            List<string> href = new List<string>();
            foreach (HtmlElement el in webBrowser1.Document.GetElementsByTagName("a"))
            {
                href.Add(el.GetAttribute("href"));
            }
        }

Answer 4

谢谢大家（特别是@plalx）

我发现用一种复杂而神秘的模式来强制执行href属性的有效性是非常过分的，而像一个简单的表达式如    <a\s+(?:[^>]*?\s+)?href="([^"]*)"
  足以捕获所有URL。如果要确保它们至少包含查询字符串，则可以使用
   <a\s+(?:[^>]*?\s+)?href="([^"]+\?[^"]+)"

我的最终正则表达式字符串：

首先使用其中之一：

st =@"((www\.|https?|ftp|gopher|telnet|file|notes|ms-help):((//)|(\\\\))+ \w\d:#@%/;$()~_?\+-=\\\.&]*)";
st = "@<a href[^>]*>(.*?)</a>";
st = @"((([A-Za-z]{3,9}:(?:\/\/)?)(?:[-;:&=\+\$,\w]+@)?[A-Za-z0-9.-]+|(?:www.|[-;:&=\+\$,\w]+@)[A-Za-z0-9.-]+)((?:\/[\+~%\/.\w-_]*)?\??(?:[-\+=&;%@.\w_]*)#?(?:[\w]*))?)";
st = @"((?:(?:https?|ftp|gopher|telnet|file|notes|ms-help):(?://|\\\\)(?:www\.)?|www\.)[\w\d:#@%/;$()~_?\+,\-=\\.&]+)";
st = @"(?:(?:https?|ftp|gopher|telnet|file|notes|ms-help):(?://|\\\\)(?:www\.)?|www\.)";
st = @"(((https?|ftp|gopher|telnet|file|notes|ms-help):((//)|(\\\\))+)|(www\.)[\w\d:#@%/;$()~_?\+-=\\\.&]*)";
st = @"href=[""'](?<url>(http|https)://[^/]*?\.(com|org|net|gov))(/.*)?[""']";
st = @"(<a.*?>.*?</a>)";
st = @"(?:hrefs*=)(?:[s""']*)(?!#|mailto|location.|javascript|.*css|.*this.)(?.*?)(?:[s>""'])";
st = @"http://([\\w+?\\.\\w+])+([a-zA-Z0-9\\~\\!\\@\\#\\$\\%\\^\\&amp;\\*\\(\\)_\\-\\=\\+\\\\\\/\\?\\.\\:\\;\\'\\,]*)?";
st = @"http(s)?://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
st = @"(http|https)://([a-zA-Z0-9\\~\\!\\@\\#\\$\\%\\^\\&amp;\\*\\(\\)_\\-\\=\\+\\\\\\/\\?\\.\\:\\;\\'\\,]*)?";
st = @"((http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&amp;:/~\+#]*[\w\-\@?^=%&amp;/~\+#])?)";
st = @"http://([\\w+?\\.\\w+])+([a-zA-Z0-9\\~\\!\\@\\#\\$\\%\\^\\&amp;\\*\\(\\)_\\-\\=\\+\\\\\\/\\?\\.\\:\\;\\'\\,]*)?";
st = @"http(s?)\:\/\/[0-9a-zA-Z]([-.\w]*[0-9a-zA-Z])*(:(0-9)*)*(\/?)([a-zA-Z0-9\-\.\?\,\'\/\\\+&amp;%\$#_]*)?$";
st = @"(?<Protocol>\w+):\/\/(?<Domain>[\w.]+\/?)\S*";

我的选择是

@"(?<Protocol>\w+):\/\/(?<Domain>[\w.]+\/?)\S*"

第二次使用此：

st = "(.*)?(.*)=(.*)";

解决了问题。谢谢每一个人：）

Answer 5

试试这个正则表达式：

"href\\s*=\\s*(?:\"(?<1>[^\"]*)\"|(?<1>\\S+))"

您将从以下讨论中获得更多帮助：

Regular expression to extract URL from an HTML link

和

Regex to get the link in href. [asp.net]

希望它有所帮助。

Answer 6

 HTMLDocument DOC = this.MySuperBrowser.Document as HTMLDocument;
 public IHTMLAnchorElement imageElementHref;
 imageElementHref = DOC.getElementById("idfirsticonhref") as IHTMLAnchorElement;

只需尝试此代码

Answer 7

我提出了这个，它支持锚和图像标签，并支持单引号和双引号。

<[a|img]+\\s+(?:[^>]*?\\s+)?[src|href]+=[\"']([^\"']*)['\"]

所以

<a href="/something.ext">click here</a>

将匹配：

 Match 1: /something.ext

和

<a href='/something.ext'>click here</a>

将匹配：

 Match 1: /something.ext

同样适用于img src属性

用于查找<a> link</a>的'href'值的正则表达式

7 个答案:

被修改

谢谢大家（特别是@plalx）

我的最终正则表达式字符串：

解决了问题。谢谢每一个人：）