正则表达式来检索锚点

时间:2010-07-30 05:48:20

标签: c# regex anchor

我有一堆html,我需要使用正则表达式获取所有锚点和锚值。

这是我需要处理的示例html:

<P align=center><SPAN style="FONT-FAMILY: Arial; FONT-SIZE: 10px"><SPAN style="COLOR: #666666">View the </SPAN><A href="http://www.google.com"><SPAN style="COLOR: #666666">online version</SPAN></A><SPAN style="COLOR: #666666"> if you are having trouble <A name=hi>displaying </A>this <a name="msg">message</A></SPAN></SPAN></P>

所以,我需要能够全部<A name="blah">

非常感谢任何帮助。

3 个答案:

答案 0 :(得分:2)

在stackoverflow上有数百个其他答案表明 - 使用正则表达式来处理html是一个坏主意。使用一些html解析器。

但是,例如,如果仍然需要正则表达式来查找href网址,下面是一个正则表达式,您可以使用它来匹配href并提取其值:

\b(?<=(href="))[^"]*?(?=")

如果你想在<A></A>中获取内容,那么使用正则表达式实际上是一种糟糕的方法,因为正则表达式中的先行/后代不支持正则表达式生成可变长度匹配。

答案 1 :(得分:0)

模式为<a.*?(?<attribute>href|name)="(?<value>.*?)".*?>

所以你的c#代码将是

Regex expression = new Regex("<a.*?(?<attribute>href|name)=\"(?<value>.*?)\".*?>", RegexOptions.IgnoreCase);

答案 2 :(得分:-1)

不要忘记添加对Microsoft.mshtml.dll

的引用
using System;
using System.IO;
using System.Linq;
using System.Windows.Forms;

namespace WindowsFormsApplication1
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();

            string html = "<P align=center><SPAN style=\"FONT-FAMILY: Arial; FONT-SIZE: 10px\"><SPAN style=\"COLOR: #666666\">View the </SPAN><A href=\"http://www.google.com\"><SPAN style=\"COLOR: #666666\">online version</SPAN></A><SPAN style=\"COLOR: #666666\"> if you are having trouble <A name=hi>displaying </A>this <a name=\"msg\">message</A></SPAN></SPAN></P>";
            string fileName = Path.Combine(Path.GetTempPath(), Path.GetTempFileName());
            System.IO.File.WriteAllText(fileName, html);

            var browser = new WebBrowser();
            browser.Navigated += (sender, e) => browser_Navigated(sender, e);
            browser.Navigate(new Uri(fileName));
        }

        private void browser_Navigated(object sender, WebBrowserNavigatedEventArgs e)
        {
            var browser = (WebBrowser)sender;
            var links = browser
                        .Document
                        .Links
                        .OfType<HtmlElement>()
                        .Select(l => ((mshtml.HTMLAnchorElement)l.DomElement).href); 
                        //result: { "http://www.google.com", .. }
        }
    }
}