使用C#解析Html中的完整字符串

时间:2011-10-24 21:50:35

标签: c# html parsing

我有以下两个html示例 -

<a href="http://foo.com">User</a>: <a style="color:#333" href="http://foo.com/word"></a> blue elephant  &middot;

<a href="http://foo.com">User</a>: <a style="color:#333" href="http://foo.com/word">@<b>word</b></a> blue elephant  &middot;

我正在尝试使用C#解析它以放入csv文件并且它在某种程度上工作,但是当html中包含'@'符号时,它将使csv单元格保持空白或不包括在它之前加上'@'。我想要得到的主要部分是@word blue elephant但是这会带回一个空白单元格,而第一个html示例会根据需要返回blue elephant

我使用以下技术来做到这一点 -

string[] comm = System.Text.RegularExpressions.Regex.Split(content[1], "<a");

如何更改此功能以用于第二个html示例?

1 个答案:

答案 0 :(得分:6)

您希望在这种情况下使用类似HTML agility pack中的HTML解析器(并保存自invoking the wrath of Cthulhu

如何使用它的一些例子