Question

我正在使用c＃win form应用程序进行网站抓取，我正在尝试使用breadcrumb html获取每个标题。用我的HTML代码

<div>
<span class="title">Home</span>
<span class="sep">/</span>
<span class="title">Cat1</span>
<span class="sep">Home</span>
<span class="title">Cat2</span>
<span class="sep">/</span>
<span class="title">Cat3</span>
</div>

以上html是字符串格式。我想检索类别，即Cat1到Cat3，以在excel文件中写入类别。如何使用Regex从字符串中获取这3个类别。

Answer 1

使用以下正则表达式匹配您的字符串。

title">(.+)<

请注意：

它将 Home 与您的第一个捕获组匹配。

在C＃代码中，使用匹配对象的属性.Groups(1)返回第一个捕获组。 Groups(0)会返回整场比赛。

确保跳过第一场比赛以获取 Cat1 ， Cat2 和 Cat3 。

毋庸置疑，您的正则表达式对象必须处理多行。

演示here。

Answer 2

怎么样：

title">(.*?)<

网站抓取以获得面包屑类别

2 个答案:

演示here。