Question

我有以下两个html示例 -

<a href="http://foo.com">User</a>: <a style="color:#333" href="http://foo.com/word"></a> blue elephant  &middot;

<a href="http://foo.com">User</a>: <a style="color:#333" href="http://foo.com/word">@<b>word</b></a> blue elephant  &middot;

我正在尝试使用C＃解析它以放入csv文件并且它在某种程度上工作，但是当html中包含'@'符号时，它将使csv单元格保持空白或不包括在它之前加上'@'。我想要得到的主要部分是@word blue elephant但是这会带回一个空白单元格，而第一个html示例会根据需要返回blue elephant。

我使用以下技术来做到这一点 -

string[] comm = System.Text.RegularExpressions.Regex.Split(content[1], "<a");

如何更改此功能以用于第二个html示例？

Answer 1

您希望在这种情况下使用类似HTML agility pack中的HTML解析器（并保存自invoking the wrath of Cthulhu）

如何使用它的一些例子

的 Getting started

的 Easily extracting links from a snippet of html with HtmlAgilityPack

使用C＃解析Html中的完整字符串

1 个答案: