正则表达式从一些示例html中隔离文本?

时间:2011-06-15 20:13:37

标签: c# .net regex visual-studio-2008 visual-studio-2010

我很想找到提取以下内容的C#正则表达式:

<a id=sector href="?catid=us-58211593" >Financial</a>

...来自这个html字符串:

<div class="g-unit g-first">Sector: <a id=sector href="?catid=us-58211593" >Financial</a> &gt; Industry: <a href="?catid=us-64965887" >Misc. Financial Services</a> 

文本“href =”?catid = us-58211593“不相关,因此它应匹配”a“和”id = sector“元素。

更新

确实 - RegEx不适合这项工作。它只需要HTML Agility Pack中的3行代码来实现所需的结果:

HtmlWeb hw = new HtmlWeb();
HtmlDocument myDoc = hw.Load("http://www.google.com/finance?q=IBM");
var etc = myDoc.GetElementbyId("sector").InnerText;

1 个答案:

答案 0 :(得分:3)