我有一个很长的c#字符串HTML代码,我想专门提取项目符号“<ul><li></li></ul>
”。
说我有以下HTML字符串。
var html = "<div class=ClassC441AA82DA8C5C23878D8>Here is a text that should be ignored.</div>This text should be ignored too<br><ul><li>* Need this one</li><li>Another bullet point I need</li><li>A bulletpoint again that I want</li><li>And this is the last bullet I want</li></ul><div>Ignore this line and text</div><p>Ignore this as well.</p>Text not important."
我需要“<ul>
”到“</ul>
”代码之间的所有内容。可以排除“<ul>
”标记。
现在正则表达式不是我最强的一面,但如果可以使用,我需要一些帮助。 我的代码在c#。
答案 0 :(得分:3)
你应该使用HtmlAgilityPack来做这样的事情。我刚才写了一些介绍,可以帮助你开始:http://colinmackay.scot/2011/03/22/a-quick-intro-to-the-html-agility-pack/