我有以下两个html示例 -
<a href="http://foo.com">User</a>: <a style="color:#333" href="http://foo.com/word"></a> blue elephant ·
<a href="http://foo.com">User</a>: <a style="color:#333" href="http://foo.com/word">@<b>word</b></a> blue elephant ·
我正在尝试使用C#解析它以放入csv文件并且它在某种程度上工作,但是当html中包含'@'符号时,它将使csv单元格保持空白或不包括在它之前加上'@'。我想要得到的主要部分是@word blue elephant
但是这会带回一个空白单元格,而第一个html示例会根据需要返回blue elephant
。
我使用以下技术来做到这一点 -
string[] comm = System.Text.RegularExpressions.Regex.Split(content[1], "<a");
如何更改此功能以用于第二个html示例?
答案 0 :(得分:6)
您希望在这种情况下使用类似HTML agility pack中的HTML解析器(并保存自invoking the wrath of Cthulhu)
如何使用它的一些例子